下载此文档

关联规则算法Apriori的学习与实现.doc


文档分类:IT计算机 | 页数:约15页 举报非法文档有奖
1/15
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/15 下载此文档
文档列表 文档介绍
关联规则算法Apriori的学****勺卖现
(2011-07-1811:28:52)
青丸我们来看,什幺是规则?规财形如”如果…那么…(lf・・・Then…)".祈者为条件,后者 为结果。关联规対抡鴉用于弓找给灾数掘集中顼之间的有鎚的共联或和关关糸。关联规则揭 糸了放据顼间的未知的傢赖矣系,根据斯挖握的矣联关糸,可以从一个数据对象的传息来推 新另~个數握对象的传息。例如购输St分析。牛奶n面包[炙特度:3°/o» .2,传度:40%)] 丈捋度3%意味3%顾瘟同对約熙牛奶和面包。置传度40%意味购奚牛奶的顾彖40%也购 买而包。规则的丈捋度和1U言度是両个规则兴鎚度友量,它们分别反映发现规则的有用性和 确岌性。关联规则是有鎚的,如系它满足釆小丈捋度遢值和呆小置传度遢值。遠些罚值可以 由用户或领城专家很岌。
我们丸来认识几个相关的丸义:
丸义1: 支特度(support)
支持度5是挙务数据库D中包舍A U B的李务百分比,它是概率P(AUB丿,即support CAB丿=P CAU BJ ,它描述了 A和B这两个杨%集的幷集在斯冇的丰务中出现的概率。 岌义 2: ilizt fconfidence)
可住度为亭务数握库D中包含A的爭务中同对也包含B的1F分比,它是概準P <B|A; >即 confidence (AB) =P (B|AJ <> 灾义3:频繁顼町集
支捋度不小于用户洽岌的最小支特皮闲值fminsupj的项算称为频聲顼日臬(詢殊频集丿, 农者大顼<1 >o所有 的频繁1・顼集诃为L- 假设有如下裹的购洪花录。
項<1
1
orange juice, coke
2
milk, orange juice, window cleaner
3
orange jug detergent
4
orange juice, deterge nt, coke
5
window cleaner
将上展整理一下,得列如下的一个2维仪
Orange
Win Cl
Milk
Coke
Detergent
Orange
4
1
1
2
2
WinCI
1
2
1
0
0
Milk
1
1
1
0
0
Coke
2
0
0
2
1
Detergent
1
0
0
0
2
上裹中横栏和纵栏的就字痕系同时购姜运両科商%的交易条数。如购姜有Orange的交易数 为4»而同对购Orange和Coke的交易数为2。
置传度豪承了试条规则有多大程友上值得可住。设条件的顼的臬金为A•结果的集合为Bo .£ 传度计算A. A中,同肘也舍有B的概率。即Confidence(A= = >B) = P(B|A)0例如计算”如 果Orange刪Coke"的五传度。由于A•會有Orange的4条交0中'仅冇2条交易含有Coke. 。
夾持度计算庇所有的交0集中,既有A又有B的祝帛。,Orange 又冇Coke的*i己录有2条。卯J此条规则的丈持发为2/5=0・4。现>fiL这,,如果 一个顾彖灼奚了 %的可能购奚Coke。•况(即男了 Orange会再 买Coke丿令冇40%的可能发生。
冉来考虑下述情况。

支拎夂
A

B

C

A and B

A and C

B and C

A,B, and C

可得刊下述规刪
JL住发
If B and C then A
*100%=3333%
If A and C then B
*1OO%=25%
If A and B then C
*1OO%=2O%
上述的三条规则,哪一条规則有用呢?
对子规则"If B and C the nA",同肘购奚B和C的人中,%^約实A。而单顼A ,也就是说疫所有交易中,会有45% 推荐,还不如不推荐,随机对顾彖遗荐好了。
为此引入另外一个量,即堤升发(Lift),以度量此规则是杏可用。, 使用规则可以提富多少。有用的规则的提升度大子1。计算方式为
Lift(A= = > B) = Confidence(A= = > B)/Support (B) = Support (A = = >B)/(Support(A)*Support (B))o 庄上例中,Lift(lf B and C The A)=/(0

关联规则算法Apriori的学习与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数15
  • 收藏数0 收藏
  • 顶次数0
  • 上传人48216984
  • 文件大小380 KB
  • 时间2021-05-10