下载此文档

7.第八章 数据挖掘模型评估.ppt


文档分类:IT计算机 | 页数:约42页 举报非法文档有奖
1/42
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/42 下载此文档
文档列表 文档介绍
数据挖掘模型评估
2018/10/18
1
一、评估分类法的准确率
2018/10/18
2
评估分类法准确率的技术有保持(holdout)和k-折交叉确认(k-fold cross-validation)方法。
另外,还有两种提供分类法准确率的策略:装袋(bagging)和推进(boosting)。
1、保持和k-折交叉
在保持方法中,给定数据随机划分成两个独立的集合:训练集和测试集。通常,三分之二的数据分配到训练集,其余三分之一分配到训练集。
2018/10/18
3
“保持”这种评估方法是保守的,因为只有一部分初始数据用于导出的分类法。
随机子选样是“保持”方法的一种变形,它将“保持”方法重复k次。总体准确率估计取每次迭代准确率的平均值。
K—折交叉确认
在k—折交叉确认(k—fold cross—validation)中,初试数据被划分成k个互不相交的子集或“折”,每个折的大小大致相等。训练和测试k次。在第i次迭代,第i折用作测试集,其余的子集都用于训练分类法。
准确率估计是k次迭代正确分类数除以初始数据中的样本总数。
2018/10/18
4
2、提高分类法的准确率
2018/10/18
5
装袋
2018/10/18
6
推进
即使用相同的分类器,各个分类器不是独立的;使用同一个算法对样本迭代训练,后建立的分类器关注于先前建立的分类器不能更好处理的部分数据;最终的输出为各个分类器的加权投票。
3、灵敏性和特效性度量
假定你已经训练了一个分类法,将医疗数据分类为“cancer”或“non_cancer”。90%的准确率使得该分类法看上去相当准确,但是如果实际只有3—4%的训练样本是“cancer”会怎么样?
显然,90%的准确率是不能接受的——该分类法只能正确的标记“non_cancer”(称作负样本)样本。但我们希望评估该分类能够识别“cancer”(称作正样本)的情况。
2018/10/18
7
为此,除用准确率评价分类模型外,还需要使用灵敏性(sensitivity)和特效性(specificity)度量。
还可以使用精度(precision)来度量,即评估标记为“cancer”,实际是“cancer”的样本百分比。
2018/10/18
8
其中,t_pos是真正样本(被正确地按此分类的“cancer”样本)数,pos是正(“cancer”)样本数,
t_neg是真负样本(被正确地按此分类的“non_cancer”样本)数,neg是负( “non_cancer”)样本数,
而f_pos假正样本(被错误地标记为“cancer”的“non_cancer”样本)数
2018/10/18
9
灵敏性
特效性
精度
2018/10/18
10
预测值
1(实际“cancer”)
0(实际no_cancer)
1(预测“cancer”)
0
0
0(预测“no_cancer”)
10
90

7.第八章 数据挖掘模型评估 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数42
  • 收藏数0 收藏
  • 顶次数0
  • 上传人镜花流水
  • 文件大小3.70 MB
  • 时间2018-10-17