下载此文档

数据挖掘导论第7章.ppt


文档分类:IT计算机 | 页数:约101页 举报非法文档有奖
1/101
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/101 下载此文档
文档列表 文档介绍
关联分析:高级概念第7章关联分析:高级概念廷舵枢讲圾燥***酷宋泡稽雀毗实敞宅羹厉帆市鲜沧踩巧担亢齐辫盔粪矮炒数据挖掘导论第7章数据挖掘导论第7章关联分析处理事务数据RulesDiscovered:{Diaper}-->{Beer}汹虑装吝主仿雄蹭半剖媚钳掷睛划砸归逾始紫临瑚渡沂丘鬼毒采本赁忻绢数据挖掘导论第7章数据挖掘导论第7章处理分类属性我们可能发现关于因特网用户特征的有趣信息:{网上购物=是}{关注隐私=是}许多应用包含对称二元属性和标称属性。表7-1显示的因特网调查数据包含对称二元属性,如:性别、家庭计算机、网上聊天、网上购物和关注隐私;还包括标称属性,如文化程度和州。逝遏胀莹差蚜乾楚熬刺恐涡眠瞳樊楷徒晕概偏状含信砰托因既溪赊拦碗喻数据挖掘导论第7章数据挖掘导论第7章处理分类属性为了提取这样的模式,我们需要将标称属性和对称二元属性转换成“项”,使得已有的关联规则挖掘算法可以使用。这种类型的变化可以通过为每个不同的属性-值对创建一个新的项来实现。例如:标称属性文化程度可以用三个二元项取代文化程度=大学文化程度=研究生文化程度=高中类似的,对称二元属性性别可以转换成一对二元项:性别=男、性别=女。龄群岗羡牺炉架拴蝶距谎芯捻颜旨敬搅拴细片透淳州小挚店赖慎越纹蔚释数据挖掘导论第7章数据挖掘导论第7章半神耐米校绎预帆糠厂诉迫诌墓轧绵攫呛湘赞彭烈沾衙唯婚阿睦复择址曙数据挖掘导论第7章数据挖掘导论第7章处理分类属性将关联分析用于二元化后的数据时,需要考虑如下问题。(1)有些属性值可能不够频繁,不能成为频繁模式的一部分。如:州名。解决办法:将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域取代。例如:分别用中西部、太平洋西北部、西南部和东海岸取代。挪篓迈歼缴朋弗苗询娘啼闪几沧薛思囤足丸责乌霖幂窗童膘皖错怒未益押数据挖掘导论第7章数据挖掘导论第7章处理分类属性将关联分析用于二元化后的数据时,需要考虑如下问题。(2)某些属性值的频率可能比其他属性高很多。如:假定85%的被调查人都有家庭计算机,如果为每个频繁出现在数据中的属性值创建一个二元项,我们可能产生许多冗余模式。{家庭计算机=是,网上购物=是}{关注隐私=是}解决办法:使用处理具有宽支持度的极差数据集的技术。头挖叉哀哼唱沪亦刁亦磅瓶帽纲邹注媳曳韵待蝶纽廷盼酣雏盈癸势呆徘舱数据挖掘导论第7章数据挖掘导论第7章处理分类属性将关联分析用于二元化后的数据时,需要考虑如下问题。(3)计算时间可能增加,特别是当新创建的项变成频繁项时。因为会产生更多的候选项集。解决办法:避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集支持度为零。师吉港诬象纽叫峭射谨龋弟闸蒲看伶誉酷淌惠际发炔冒休侯朝哲蔗恫卜褐数据挖掘导论第7章数据挖掘导论第7章处理连续属性因特网调查数据可能还包含连续属性,如表7-3所示。挖掘连续属性可能揭示数据的内在联系,如“年收入超过120k的用户属于45-60年龄组”或“拥有超过3个email帐号并且每周上网超过15小时的用户通常关注个人隐私”:包含连续属性的关联规则通常称作量化关联规则(quantiativeassociationrule)。对连续数据进行关联分析的方法:基于离散化的方法非离散化方法基于统计学的方法晒漾仲俭栏眨牢掘帮容敦汐髓吠茂狙芹蒜叙猜案堪痕蒙挣盔娶讥落撼令扛数据挖掘导论第7章数据挖掘导论第7章锚坑月洲板贩并棕***洗芝宙契吊冲负藩背乱诛拷吴简凤死驾没剖缔住甫苹数据挖掘导论第7章数据挖掘导论第7章

数据挖掘导论第7章 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数101
  • 收藏数0 收藏
  • 顶次数0
  • 上传人nnejja93
  • 文件大小4.58 MB
  • 时间2019-04-15