浅谈数据挖掘
2011年度实验室交流会
皮佑国实验室:鄢琦
讲解概要
数据挖掘如何兴起
什么是数据挖掘
知识挖掘步骤
数据挖掘的系统组成
数据挖掘与数据分析的比较
数据挖掘方法简介
数据挖掘应用举例
为什么要进行数据挖掘
数据爆炸性增长
每个行业尤其是互联网的数据都在不断增长
海量数据导致有用信息被淹没
TBPB
“需要是发明之母”——海量数据的自动分析技术
更深层次的知识需要被获得
什么是数据挖掘
数据挖掘
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识
(数据挖掘,挖掘的不是数据本身,而是知识)
广义:等同于知识挖掘(KDD)
狭义:等同于知识挖掘的一个核心步骤
知识挖掘的步骤
数据挖掘系统的组成
数据挖掘与一般数据分析的不同
数据量大小不一样
数据维数不同
数据量本身复杂性有区别
应用的复杂程度不一致
数据挖掘的方法
粗糙集
模糊集
聚类分析
关联规则
人工神经网络
分类与预测
分类方法:决策树、贝叶斯分类、基于遗传算法分类
预测方法:回归统计
数据挖掘的方法—关联规则
关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。
例子:
人们希望在海量的商业交易记录中发现感兴趣的数据关联关系,用以帮助商家作出决策,如一家超市中:
面包 2% 牛奶 3% (占超市交易总数)
2%和3%表明这两种商品在超市经营中的重要程度,称为支持度。商家关注高支持度的产品。
面包=+牛奶 60%
在购买面包的交易中,有60%的交易既买了面包又买了牛奶,那么就称60%为规则“面包=+牛奶”的信任度。信任度反映了商品间的关联程度。
数据挖掘的方法—关联规则
项目构成的集合称为项集。项集在事物数据库中出现的次数占总事物的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集。
关联规则就是支持度和信任度分别满足用户给定阈值的规则。
关联规则需要经历如下两个步骤:
(1)找出所有的频繁项。
(2)由频繁项集生成满足最小信任度阈值的规则。
浅谈数据挖掘 来自淘豆网www.taodocs.com转载请标明出处.