下载此文档

数据挖掘关联分析.docx


文档分类:IT计算机 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
数据挖掘关联分析.docx数据挖掘关联分析1引言在大型数据库屮,,前者采用逐层搜索的迭代策略,先产生候选集,再对候选集进行筛选,然后产生该层的频繁集。,主耍用来在大型数据库上进行快速挖掘关联规则。,使用候选项集來找频繁项集。其基本思想是:首先找出所有频繁1一项集的集合Li,LJIJ于找频繁2—项集的集合L2,而L2用于找・,如此下去,肯到不能找到频繁k—项集。并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并牛成该层的频繁项集。经过筛选可减少候选项集数,从而加快关联规则挖掘的速度。,那么它的所有了集都是频繁的先验原理成立的原因:vx,y:(xor)^5(x)>5(y)(k—1)项集都不可能是频繁k—,如果一个候选k—项集的(k-1)—子集不在Lk—1中,则该候选项集也不可能是频繁的,=l扫描事务数据库一次,生成频繁的1-项集如果存在两个或以上频繁k-项集,重复下面过程:[候选产生]由长度为k的频繁项集生成长度为k+1的候选项集L候选前剪枝]対每个候选项集,若其具有非频繁的长度为k的子集,则删除该候选项集[支持度计算]扫描事务数据库一次,统计每个余下的候选项集的支持度[候选后剪枝]删除非频繁的候选项集,仅保留频繁的(k+1)-项集,设定k=k+lSTOPApriori流程图223候选项集的支持度计算1) 扫描事务数据库,决定每个候选项集的支持度。2) 为了减少比较次数,将候选项集保存在散列(hash)结构中,将每个事务与保存在散列 :{145},{124},{457},{125},{458},{159},{136},{234},{567},{345},{356},{357},{689},{367},{368}。

数据挖掘关联分析 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数4
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小雄
  • 文件大小93 KB
  • 时间2019-12-28