中南民族大学
计算机科学学院
《数据挖掘与知识发现》
综合实验报告
姓名
年级级
专业软件工程
指导教师李波
学号
序号 31
实验类型综合型
成绩评定
评语:
教师签名:
年月日
2016 年 12月 15 日
年级
专业
软件工程
班级
组号
实验室
9-205
日期
实验
名称
数据挖掘与知识发现
实
验
内
容
分项内容
实验级别
Weka环境熟悉;决策树(1)
决策树(2)
关联规则,聚类分析
KDD案例
属性相关性,神经网络(1)
神经网络(2)
小组成员
姓名
学号
组内分工
自我评分
教师评分
实验分项1
Weka环境熟悉;决策树(1)
实
验
目
的
熟悉Weka软件的环境和基本用法。
掌握ARFF数据文件的编制方法。
学****应用Weka软件建立决策树的方法,并理解决策树的剪枝和未剪枝的分类效果。
实
验
要
求
1、参照教材 19 -22 页内容,熟悉页内容,熟悉 WekaWeka Weka软件的安装及使用环境;
2、在记事本程序中编制 ColdType , .
3、打开 WekaWeka Weka软件,并参软件,并参照教材 ,完成相关操作并小节,完成相关操作并小节,完成相关操作并小节,完成相关操作并理解相应处理结果。
4、根据教材表 所提供的数据集 T,基于 WekaWeka Weka软件,应用 算法建立决策树, 预测某个学生是否决定去打篮球。
要求:( 1)采用 arff arff文件来完成; 文件来完成;(2)分别完成决策树剪枝和未的情况。
实
验
原
理
步
骤
(
算
法
流
程
)
。
我们实验中Weka访问的数据格式是arff格式的。
运行Weka后,出现了窗口,我们在里面选择Explorer界面。
在Preprocess选项卡,点击file按钮,加载arff文件,就可以对文件中的数据进行采集挖掘。
用***@data定义数据集的开始,数据值用逗号隔开,若存在缺失数据,则用问号表示。
,按照教材要求完成相关操作,并理解相应处理结果
(1)在打开arff文件后,界面详细显示了数据集的实例个数,属性值的比例关系等。
图1
实
验
原
理
步
骤
(
算
法
流
程
)
(2)在界面中可以进行属性和实例的筛选,直接在对话框中对数据实例进行筛选,对缺失数据进行填补,重命名甚至进行排序也可以。
(3)建立分类模型,切换到classify选项卡,单击choose按钮,打开分类器选择对话框,选择J48来建立决策树模型。在Test options面板底部有一个More options按钮,单击该按钮,打开Classifier evaluation options对话框,设置选中Output predictions复选框,可以在输出结果中出现预测输出结果。单击start按钮,就可以执行数据挖掘。
图2
(3)在Result list列表框的会话条目上右击,从快捷菜单中选择Visualize tree命令,打开Tree View窗口,可以看到感冒类型诊断决策树。
实
验
原
理
步
骤
(
算
法
流
程
)
图3
(4)利用所建立的分类模型分类未知实例,在执行数据挖掘前,将Test options检验方式设置为Supplies test set,并打开ColdType-。在输出结果中显示预测结果,再单击start按钮,执行数据挖掘。
(5)切换到Cluster选项卡,选择简单K-均值算法,打开算法参数设置对话框,在其中设置聚类的相关参数,本次实验中簇的个数为2,分类属性为Cold-Type。
实
验
原
理
步
骤
(
算
法
流
程
)
(6)为了能够更客观的显示,打开可视化窗口,将x轴改为Cluster,将Y轴改为Cold-Type,拖动Jitter滑块至中间,可以清楚地看到分布结果。
我们可以清楚地看见数据分为了两个簇,每一个簇中的感冒性质是一样的,两个簇的种类分别是病毒性感冒和细菌性感冒。
(7)并且能够看清楚坐标系中每个点所在的信息。
实
验
结
果
及
分
析
(8)使用Weka进行关联分析,切换到Associate选项卡,规则
数据挖掘 xxx xxxx 来自淘豆网www.taodocs.com转载请标明出处.