下载此文档

数据挖掘中易犯的10大错误.pdf


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
@数据分析精选:分享数据分析、数据挖掘......期待名人和人名猛击“关注”实在是您学****研究、职场商战的
必备猛药。
数据挖掘中易犯的 10 大错误
作者:@张磊 Wrong Question)
IDMer:一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中
我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。
a)项目的目标:一定要锁定正确的目标
例如:
欺诈侦测(关注的是正例!)(Shannon 实验室在国际长途电话上的分析):不要试图在
一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据
此发现异常通话行为。
b)模型的目标:让计算机去做你希望它做的事
大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。
但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。
4. 只靠数据来说话(Listen (only) to the Data)
IDMer:“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果
数据+工具就可以解决问题的话,还要人做什么呢?
:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉
你结果是对还是错。
:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。
5. 使用了未来的信息(Accept Leaks from the Future)
IDMer:看似不可能,却是实际中很容易犯的错误,特别是你面对成千上万个变量的时候。
认真、仔细、有条理是数据挖掘人员的基本要求。
预报(Forecast)示例:预报芝加哥银行在某天的利率,使用神经网络建模,模型的准确
率达到 95%。但在模型中却使用了该天的利率作为输入变量。
金融业中的预报示例:使用 3 日的移动平均来预报,但却把移动平均的中点设在今天。
解决方法:
要仔细查看那些让结果表现得异常好的变量,这些变量有可能是不应该使用,或者不应该直
接使用的。
给数据加上时间戳,避免被误用。
6. 抛弃了不该忽略的案例(Discount Pesky Cases)
IDMer:到底是“宁为鸡头,不为凤尾”,还是“大隐隐于市,小隐隐于野”?不同的人
生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。
异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比
如臭氧洞)。所以需要仔细检查这些异常。@数据分析精选:分享数据分析、数据挖掘......期待名人和人名猛击“关注”实在是您学****研究、职场商战的
必备猛药。
研究中最让激动的话语不是“啊哈!”,而是“这就有点奇怪了……”
数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个大的业务问题。
例如:
在直邮营销中,在对家庭地址的合并和清洗过程中发现的数据不一致,反而可能是新的营销

数据挖掘中易犯的10大错误 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人iris028
  • 文件大小232 KB
  • 时间2022-07-01