下载此文档

基于weka的数据分类和聚类分析实验报告.docx


文档分类:IT计算机 | 页数:约15页 举报非法文档有奖
1/15
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/15 下载此文档
文档列表 文档介绍
Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】
基于weka的数据分类和聚类分析实验报告
基于weka的数据分类分析实验报告
1实验基本内容
本实验的基本内容是通过使用weka中的三种常见分类和聚类方法(决策树J48、KNN和k-means)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。
2数据的准备及预处理
格式转换方法
(1)打开“” 另存为CSV类型,得到“”。
(2)在WEKA中提供了一个“Arff Viewer”模块,打开一个“”进行浏览,然后另存为ARFF文件,得到“”。 。
3. 实验过程及结果截图
决策树分类
(1)决策树分类
用“Explorer”打开数据“”,然后切换到“Classify”。点击“Choose”,选择算法“trees-J48”,再在“Test options”选择“Cross-validation(Flods=10)”,点击“Start”,开始运行。
系统默认trees-J48决策树算法中minNumObj=2,得到如下结果
=== Summary ===
Correctly Classified Instances 23 %
Incorrectly Classified Instances 3 %
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error %
Root relative squared error %
Total Number of Instances 26
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0 1 N
1 1 Y
Weighted Avg.
=== Confusion Matrix ===
a b <-- classified as
14 3 | a = N
0 9 | b = Y
使用不同的参数准确率比较:
minNumObj
2
3
4
5
Correctly Classified Instances
23
( %)
22
( %)
23
( %)
23
( %)
由上表,可知minNumObj为2时,准确率最高。
根据测试数集,利用准确率最高的模型得到的结果:

分析说明:
在用J48对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个Y,N。一部分结果如下:
Correctly Classified Instances 23 %
Incorrectly Classified Instances 3 %
=== Confusion Matrix ===
a b <-- classified as
14 3 | a = N
0 9 | b = Y
这个矩阵是说,原来是“Y”的实例,有14个被正确的预测为“Y”,有3个错误的预测成了“N”。原本是“NO”的实例有0个被正确的预测成为“Y”,有9个正确的预测成了“N”。“14+3+0+9=26”是实例的总数,而(14+9)/ 26=正好是正确分类的实例所占比例。这个

基于weka的数据分类和聚类分析实验报告 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数15
  • 收藏数0 收藏
  • 顶次数0
  • 上传人丽华
  • 文件大小1.13 MB
  • 时间2021-06-21