下载此文档

关联规则七章.ppt


文档分类:IT计算机 | 页数:约35页 举报非法文档有奖
1/35
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/35 下载此文档
文档列表 文档介绍
(操作实例)-引言关联:是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性关联可分为简单关联、时序关联、因果关联关联分析:目的是寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度关联规则:是关联分析的常见结果,用于寻找在同一个事件中出现的不同项的相关性关联规则发现的主要对象是交易型数据库;关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,-例子购物篮分析-引发关联规则挖掘的例子问题:什么商品组或集合顾客多半会在一次购物中同时购买?购物篮分析:设全域为商店出售的商品的集合(即项目全集),一次购物(即事务)所购商品为项目全集的子集。若每种商品用一个布尔变量表示该商品的有无,则每个购物篮可用一个布尔向量表示。通过对布尔向量的分析,得到反映商品频繁关联或同时购买的购买模式,puterfinancial_management_software [support=2%,confidence=60%]support为支持度,confidence为可信度;该规则表示:在所分析的全部事务中,有2%的事务同时购买计算机和财务管理软件;在购买计算机的顾客中60%-概念-1关联(Associations)分析的目的是为了挖掘隐藏在数据间的相互关系,即对于给定的一组项目和一个记录集,通过对记录集的分析,得出项目集中的项目之间的相关性项目之间的相关性用关联规则来描述,关联规则反映了一组数据项之间的密切程度或关系形式化定义:令I={i1,i2,…,in}是项的集合,即项集,包含k个项的项集为k-项集;事务T是I上的一个子集,集合TI,每个事务用唯一的标志TID来标识;D是全体事务的集合关联规则(语法):是形如A→B的蕴含式,其中AI,BI且AB=,A称为规则的条件,-概念-2关联规则的支持度和可信度支持度是重要性的度量;可信度是准确度的度量规则A→B具有支持度S,表示S是D中事务包含AUB的百分比,即联合概率P(AUB),也可以表示为:support(A→B)=P(AUB)=(包含A和B的事务数/事务总数)×100%规则A→B具有可信度C,表示C是包含A项集的同时也包含B项集,即条件概率P(B|A),也可以表示为:confidence(A→B)=P(B|A)=(包含A和B的事务数/包含A的事务数)×100%-概念-3阈值:为了在事务数据库中找出有用的关联规则,需要确定两个阈值:最小支持度阈值min_sup和最小可信度阈值min_conf频繁项集:满足最小支持度min_sup的项集频繁项集中,任意子项集中各项出现的联合概率(即项集的支持频度sup(T))都大于最小支持度min_sup关联规则(语义):支持度和可信度均不小于给定最小支持度阈值和最小置信度阈值的规则,是有意义有价值的,即:A→B,若满足: S(A→B)>min_sup,且C(A→B)>-概念-4期望可信度:设事务集D中有e%的事务支持项集B,e%称为关联规则A→B的期望可信度(与A无关);描述了在没有任何条件影响时,项集B在所有事务中出现的概率,即P(B)作用度:是可信度与期望可信度的比值;描述项集A的出现对项集B的出现有多大影响,即概率P(B|A)/P(B)-概念-小结表:各参数的含义及计算公式名称描述计算公式支持度事务中项目A和B同时出现的概率P(AUB)可信度出现项目A的事务中,B也出现的概率P(B|A)期望可信度事务中出现项目B的概率P(B)作用度可信度与期望可信度的比值P(B|A)/P(B):-频繁项集;是过程的核心步骤,关键技术,实现较困难由频繁项集产生关联规则,-简例已知交易记录数据库D中有9条交易记录(事务):T1:A,B,E T2:B,DT3:B,C T4:A,B,DT5:A,C T6:B,CT7:A,C T8:A,B,C,ET9:A,B,C设定最小支持度为20%,最小可信度为60%找到所有的频繁项集,有{A,B,C}、{A,B,E}及其全部子集;(还有哪些?)产生关联规则,举例有:A∧E→B(?,?) A→B(?,?)B∧E→A(?,?) A→C(?,?)E→A∧B(?,?)

关联规则七章 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息