下载此文档

数据挖掘导论第7章.pptx


文档分类:IT计算机 | 页数:约101页 举报非法文档有奖
1/101
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/101 下载此文档
文档列表 文档介绍
该【数据挖掘导论第7章 】是由【闰土】上传分享,文档一共【101】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘导论第7章 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。关联分析:高级概念
第7章
关联分析:高级概念
数据挖掘导论第7章共101页,您现在浏览的是第1页!
关联分析处理事务数据
RulesDiscovered:
{Diaper}-->{Beer}
数据挖掘导论第7章共101页,您现在浏览的是第2页!
处理分类属性
我们可能发现关于因特网用户特征的有趣信息:
{网上购物=是}{关注隐私=是}
许多应用包含对称二元属性和标称属性。表7-1显示的因特网调查数据包含对称二元属性,如:性别、家庭计算机、网上聊天、网上购物和关注隐私;还包括标称属性,如文化程度和州。
数据挖掘导论第7章共101页,您现在浏览的是第3页!
处理分类属性
为了提取这样的模式,我们需要将标称属性和对称二元属性转换成“项”,使得已有的关联规则挖掘算法可以使用。
这种类型的变化可以通过为每个不同的属性-值对创建一个新的项来实现。
例如:标称属性文化程度可以用三个二元项取代
文化程度=大学
文化程度=研究生
文化程度=高中
类似的,对称二元属性性别可以转换成一对二元项:性别=男、性别=女。
数据挖掘导论第7章共101页,您现在浏览的是第4页!
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(1)有些属性值可能不够频繁,不能成为频繁模式的一部分。如:州名。
解决办法:将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域取代。例如:分别用中西部、太平洋西北部、西南部和东海岸取代。
数据挖掘导论第7章共101页,您现在浏览的是第5页!
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(3)计算时间可能增加,特别是当新创建的项变成频繁项时。因为会产生更多的候选项集。
解决办法:避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集支持度为零。
数据挖掘导论第7章共101页,您现在浏览的是第6页!
数据挖掘导论第7章共101页,您现在浏览的是第7页!
数据挖掘导论第7章共101页,您现在浏览的是第8页!
如果支持度阈值=5%,置信度阈值=65%。我们可以从表中推出年龄和网上聊天隐含强规则:
[16,24)网上聊天=是(s=%,c=%)[44,60)网上聊天=否(s=%,c=70%)
区间宽度对关联分析结果的影响。
(1)如果区间太宽,则可能因为缺乏置信度而失去某些规则
例如:当区间宽度为24岁时,上面的两个规则变为
[16,36)网上聊天=是(s=30%,%)
[36,60)网上聊天=否(s=28%,%)
数据挖掘导论第7章共101页,您现在浏览的是第9页!
非离散化方法
有一些应用,分析者更感兴趣的是发现连续属性之间的关系。例如,找出表7-6所示文本文档中词的关联。
数据挖掘导论第7章共101页,您现在浏览的是第10页!

数据挖掘导论第7章 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数101
  • 收藏数0 收藏
  • 顶次数0
  • 上传人闰土
  • 文件大小4.33 MB
  • 时间2023-02-26