下载此文档

数据挖掘导论第7章.ppt


文档分类:IT计算机 | 页数:约102页 举报非法文档有奖
1/102
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/102 下载此文档
文档列表 文档介绍
该【数据挖掘导论第7章 】是由【小落意】上传分享,文档一共【102】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘导论第7章 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据挖掘导论第7章
关联分析处理事务数据
RulesDiscovered:
{Diaper}-->{Beer}
处理分类属性
我们可能发现关于因特网用户特征的有趣信息:
{网上购物=是}{关注隐私=是}
许多应用包含对称二元属性和标称属性。表7-1显示的因特网调查数据包含对称二元属性,如:性别、家庭计算机、网上聊天、网上购物和关注隐私;还包括标称属性,如文化程度和州。
处理分类属性
为了提取这样的模式,我们需要将标称属性和对称二元属性转换成“项”,使得已有的关联规则挖掘算法可以使用。
这种类型的变化可以通过为每个不同的属性-值对创建一个新的项来实现。
例如:标称属性文化程度可以用三个二元项取代
文化程度=大学
文化程度=研究生
文化程度=高中
类似的,对称二元属性性别可以转换成一对二元项:性别=男、性别=女。
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(1)有些属性值可能不够频繁,不能成为频繁模式的一部分。如:州名。
解决办法:将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域取代。例如:分别用中西部、太平洋西北部、西南部和东海岸取代。
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(2)某些属性值的频率可能比其他属性高很多。如:假定85%的被调查人都有家庭计算机,如果为每个频繁出现在数据中的属性值创建一个二元项,我们可能产生许多冗余模式。
{家庭计算机=是,网上购物=是}{关注隐私=是}
解决办法:使用处理具有宽支持度的极差数据集的技术。
处理分类属性
将关联分析用于二元化后的数据时,需要考虑如下问题。
(3)计算时间可能增加,特别是当新创建的项变成频繁项时。因为会产生更多的候选项集。
解决办法:避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集支持度为零。
处理连续属性
因特网调查数据可能还包含连续属性,如表7-3所示。
挖掘连续属性可能揭示数据的内在联系,如“年收入超过120k的用户属于45-60年龄组”或“拥有超过3个email帐号并且每周上网超过15小时的用户通常关注个人隐私”:
包含连续属性的关联规则通常称作量化关联规则(quantiativeassociationrule)。
对连续数据进行关联分析的方法:
基于离散化的方法
非离散化方法
基于统计学的方法
区间宽度对关联分析结果的影响。
(2)如果区间太窄,则可能因为缺乏支持度而失去某些规则
例如:当区间宽度为4岁时,上面的两个规则变为
[16,20)网上聊天=是(s=%,%)
[20,24)网上聊天=是(s=%,%)
(3)当区间宽度为8岁时,上面的两个规则变为
[44,52)网上聊天=否(s=%,70%)
[52,60)网上聊天=否(s=%,70%)
[12,20)网上聊天=是(s=%,%)
[20,28)网上聊天=是(s=%,%)

数据挖掘导论第7章 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数102
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小落意
  • 文件大小4.26 MB
  • 时间2022-12-02