下载此文档

数据挖掘第一与第二章.ppt


文档分类:IT计算机 | 页数:约94页 举报非法文档有奖
1/94
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/94 下载此文档
文档列表 文档介绍
该【数据挖掘第一与第二章 】是由【小落意】上传分享,文档一共【94】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘第一与第二章 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据挖掘第一与第二章
为什么要挖掘数据?
大量数据被收集,存储在数据库\数据仓库中
竞争压力越来越大
计算机越来越便宜,功能越来越强大
数据以极快的速度收集和存储(GB/hour)
传统的技术难以处理这些原始数据
常常有些信息“隐藏”在数据中,并非显而易见的
人分析需要数周\数月,才能发现有用的信息
许多数据根本未曾分析过
挖掘大型数据集:动机
什么是数据挖掘
许多不同定义
本书定义
在大型数据存储库中,自动地发现有用信息的过程。
Exploration&analysis,byautomaticorsemi-automaticmeans,oflargequantitiesofdatainordertodiscovermeaningfulpatterns
JiaweiHan的定义
从大型数据集中提取有趣的(非平凡的,蕴涵的,先前未知的并且是潜在有用的)信息或模式
数据挖掘技术的定义
定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程.
定义所包含的意义:
—数据源必须是真实的、大量的、含噪声的;
—发现的是用户感兴趣的知识;
—发现的知识要可接受、可理解、可运用;
—这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值.
数据挖掘与KDD
数据挖掘与知识发现
数据挖掘是数据库中知识发现(knowledgediscoveryindatabase,KDD)不可缺少的一部分
KDD是将未加工的数据转换为有用信息的整个过程
2022/12/2
6
数据挖掘导论
引发数据挖掘的挑战1
可伸缩
海量数据集越来越普遍
数千兆字节(terabytes)
为处理海量数据,算法必须是可伸缩的(scalable)
可伸缩可能还需要新的数据结构,以有效的方式访问个别记录
例如,当要处理的数据不能放进内存时,可能需要非内存算法
使用抽样技术或开发并行和分布算法也可以提高可伸缩程度
2022/12/2
7
数据挖掘导论
挑战2
高维性
具有数以百计或数以千计属性的数据集
生物信息学:涉及数千特征的基因表达数据
不同地区温度测量:如果在一个相当长的时间周期内进行测量,维度(特征数)的增长正比于测量的次数
为低维数据开发的数据分析技术不能很好地处理高维数据
某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加
2022/12/2
8
数据挖掘导论
挑战3
异种数据和复杂数据
传统的数据分析方法只处理包含相同类型属性的数据集
非传统的数据类型的出现需要能够处理异种属性的技术
半结构化文本和超链接的Web页面集
具有序列和三维结构的DNA数据
地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据
数据中的联系
如时间和空间的自相关性、图的连通性、半结构化文本和XML文
档中元素之间的父子联系
2022/12/2
9
数据挖掘导论
数据挖掘任务
关联分析
用来描述数据中强关联特征的模式。
关联分析的应用包括找出具有相关功能的基因组、识别用户一起访问的Web页面、理解地球气候系统不同元素之间的联系等。

数据挖掘第一与第二章 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数94
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小落意
  • 文件大小6.17 MB
  • 时间2022-12-02