下载此文档

数据挖掘技术关联性分析.ppt


文档分类:IT计算机 | 页数:约31页 举报非法文档有奖
1/31
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/31 下载此文档
文档列表 文档介绍
第8章知识类数据挖掘技术
知识发现系统的结构
关联规则的数据挖掘技术
神经网络的数据挖掘技术
遗传算法的数据挖掘技术
知识发现系统的结构
知识发现系统管理器:控制并管理整个知识发现过程,包括数据选择过程、抽取算法的选择及使用过程、发现的评价过程。
知识库和商业分析员
数据仓库的数据库接口
数据选择
知识发现引擎:分类、聚类、偏差分析、模糊推理等
发现评价
发现描述
关联规则的数据挖掘技术
自然界中某种事物发生时其他事物也会发生的这样一种联系称之为关联。
反映事件之间依赖或关联的知识称为关联型知识(又称依赖关系)
关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识
关联规则发现的主要对象是交易型数据库,一个交易一般由交易处理时间,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)组成。
交易号(TID)
项集合(Itemsets)
T100
I1,I2,I5
T200
I2,I4
T300
I2,I3
T400
I1,I2,I4
T500
I1,I3
例:
以零售业为例,体育用品商场通过对销售数据进行关联分析通常可以发现这些数据中常常隐含形式如下的规律——“购买篮球的顾客中有70%的人同时购买篮球运动服,所有交易中有40%的人同时购买篮球和篮球运动服”等等。
篮球
篮球运动服
support=40% , confidence=60%
For rule A  C:
support = support({A &C}) = 50%
confidence = support({A &C})/support({A}) = %
定义:关联规则挖掘的交易数据集记为D(一般为交易数据库),D={T1,T2,…,Tk,…,Tn},Tk(k=1,2,…,n)称为交易,对应每一个交易有唯一的标识,记作TID。
元素im(m=1,2,…,p)称为项。设I={i1,i2,…,im}是D中全体项组成的集合,且TkI。
设X是一个I中项的集合,如果XTk,那么称交易Tk包含项集X。
若X,Y为项集,XI, YI,并且XY=,则形如X ==> Y的表达式称为关联规则。
关联规则形式化定义
交易号(TID)
项集合(Itemsets)
T100
I1,I2,I5
T200
I2,I4
T300
I2,I3
T400
I1,I2,I4
T500
I1,I3
项集:一个数据项的集合
k项集:包含k个数据项的项集
规则XY在交易数据集D中的
置信度是对关联规则准确度
的衡量。度量关联规则的强
度。即在所有出现了X的活动
中出现Y的频率,即规则XY
的必然性有多大。
记为confidence(XY)。
计算方法:
包含X和Y的交易数与包含X的
交易数之比:
confidence(XY) =
P(Y∣X) = |{T: XYT,
TD}|/|{T:XT,TD}|
×100%
规则XY在交易数据集D中的
支持度是对关联规则重要性
的衡量,反映关联是否是普
遍存在的规律,说明这条规
则在所有交易中有多大的代
表性。即在所有交易中X与Y
同时出现的频率记为:
support(XY)。
计算方法:
交易数据集中同时包含X和Y
的交易数与所有交易数之比:
support(XY) = P(X∪Y)
= |{T: XYT,TD}|/
|D|×100%
(其中|D|是交易数据集D中
的所有交易数)
可信度(置信度)
支持度
关联规则度量

数据挖掘技术关联性分析 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数31
  • 收藏数0 收藏
  • 顶次数0
  • 上传人luyinyzha
  • 文件大小239 KB
  • 时间2017-12-11