下载此文档

清华大学大数据课程 第4次课 数据挖掘技术.pptx


文档分类:IT计算机 | 页数:约145页 举报非法文档有奖
1/145
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/145 下载此文档
文档列表 文档介绍
大数据分析和内存计算
第4讲数据挖掘技术概述
李国良
清华大学计算机系
提纲
数据挖掘概览
数据预处理
分类(Classification)
聚类(Cluster)
关联规则(Association Rule)
回归(Regression)
数据挖掘概览
What?
数据挖掘的定义
Why?
数据挖掘的动机
How?
哪些数据可以用来挖掘?
数据挖掘的主要内容
数据挖掘定义
什么是数据挖掘(Data Mining)?
Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data
其他称谓:
Knowledge discovery(mining) in database(KDD), data/pattern analysis, business intelligence, decision-support system, knowledge extraction, data archeology, data dredging and information harvesting etc.
模式有效性度量
Simplicity
., (association) rule length, (decision) tree size
Certainty
., confidence, P(A|B) = #(A and B)/ #(B), classification reliability or accuracy, rule strength, etc.
Utility
Potential usefulness, ., support (association), noise threshold (description)
Novelty
Not previously known, surprising (used to remove redundant rules)
为何需要数据挖掘?
数据量大
缺乏理论知识
数据挖掘可以帮助产生新的假说或者使数据变得有意义
为何需要数据挖掘?
We are drowning in data, but starving in knowledge
Data explosion: Automated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories.
苦恼: 淹没在数据中; 不能制定合适的决策!
数据
知识
决策
模式
趋势
事实
关系
模型
关联规则
序列
目标市场
资金分配
贸易选择
在哪儿做广告
销售的地理位置
金融
经济
政府
人口统计
生命周期
数据挖掘的意义
数据挖掘
辅助社会管理
促进民生改善
支持商业决策
推动科技进步
股票趋势分析
智能交通
数据挖掘应用
银行
美国银行家协会(ABA)%。
分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等
电子商务
网上商品推荐;个性化网页;自适应网站…
生物制药、基因研究
DNA序列查询和匹配;识别基因序列的共发生性…
电信
欺诈甄别;客户流失…
保险、零售
数据挖掘应用
Debt<10% of e
Debt=0%
Good
Credit
Risks
Bad
Credit
Risks
Good
Credit
Risks
Yes
Yes
Yes
NO
NO
NO
e>$40K
Q
Q
Q
Q
I
I
1
2
3
4
5
6
factor 1
factor 2
factor n
神经网络 works
聚类分析 Clustering
Open
’t
Add New
Product
Decrease
Usage
???
Time
序列分析 Sequence Analysis
决策树 Decision Trees
倾向性分析
客户保留
客户生命周期管理
目标市场
价格弹性分析
客户细分
市场细分
倾向性分析
客户保留
目标市场
欺诈检测
关联分析 A

清华大学大数据课程 第4次课 数据挖掘技术 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数145
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yunde113
  • 文件大小0 KB
  • 时间2015-06-06