下载此文档

数据挖掘_8_数据挖掘技术概述..pdf


文档分类:IT计算机 | 页数:约40页 举报非法文档有奖
1/40
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/40 下载此文档
文档列表 文档介绍
2015/6/3 1 第八章数据挖掘技术概述 2015/6/3 2 背景?数据挖掘的替换词?数据库中的知识挖掘/发现(KDD) ?知识提炼?数据/模式分析?数据考古?数据捕捞、信息收获等等。 2015/6/3 3 数据挖掘定义?数据挖掘(Data Mining):是指从模糊、随机、有噪声的大型数据集中提取人们感兴趣的知识,这些知识是隐含的、具有一定可信度的、对用户而言是新颖的且有潜在价值的知识,提取的知识表示为概念、规则、模式等多种形式。?这一定义包括好几层含义: ?数据源必须是真实的、海量的、含噪声的; ?发现的是用户感兴趣、新颖的知识; ?发现的知识要可接受、可理解、可运用、有价值; ?知识的形式可以是概念、规则、模式等形式。 2015/6/3 4 ?数据挖掘环境?数据分析的层次方法 Hidden(隐藏) Shallow(潜在) Surface(表面) simple database queries statistical analysis data mining 数据挖掘定义 2015/6/3 5 数据挖掘的演化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代) “过去五年中我的总收入是多少?”计算机、磁带和磁盘 IBM,CDC 提供历史性的、静态的数据信息数据访问(80年代) “在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS), 结构化查询语言(SQL), ODBC Oracle、Sybase、 Informix、IBM、Microsoft Oracle、Sybase、 Informix、IBM、 Microsoft 在记录级提供历史性的、动态数据信息数据仓库; 决策支持(90年代) “在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库 share、 Arbor、Cognos、 Microstrategy 在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行) “下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库 Pilot、Lockheed、 IBM、SGI、其他初创公司提供预测性的信息 2015/6/3 6 数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科信息科学机器学****可视化 2015/6/3 7 数据挖掘与其他科学的关系?数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学****可视化、信息检索和高性能计算等诸多领域。?此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。 2015/6/3 8 数据挖掘与统计学的关系?近几年,人们逐渐发现数据挖掘中有许多工作都是由统计方法来完成的。甚至有些人(尤其是统计学家)认为数据挖掘是统计学的一个分支,当然大多数人(包括绝大多数数据挖掘研究人员) 并不这么认为。?但是,统计学和数据挖掘的目标非常相似,而且数据挖掘中的许多算法也源于数理统计,统计学对数据挖掘发展的贡献功不可没。 2015/6/3 9 ?(1)数据挖掘的数据源与以前相比有了显著的改变; ?数据是海量的; ?数据有噪声; ?数据可能是非结构化的; ?(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。数据挖掘与传统数据分析方法区别 2015/6/3 10 ?在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”——里面的数据几乎不再被访问。也就是说, 极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。数据挖掘与传统数据分析方法区别

数据挖掘_8_数据挖掘技术概述. 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息