下载此文档

数据挖掘入门.ppt


文档分类:IT计算机 | 页数:约91页 举报非法文档有奖
1/91
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/91 下载此文档
文档列表 文档介绍
2017-2-16 1数据挖掘入门数据挖掘入门 2017-2-16 2一、引言一、引言??什么激发了数据挖掘什么激发了数据挖掘近年来,数据挖掘引起了信息产业界的极大关注,其近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可这些数据转换成有用的信息和知识。获取的信息和知识可以广泛应用于各种领域,如商务管理、生产控制、市场分以广泛应用于各种领域,如商务管理、生产控制、市场分析、工程设计和科学探索等。析、工程设计和科学探索等。面对海量数据库和大量繁杂信息,如何才能从中提取面对海量数据库和大量繁杂信息,如何才能从中提取有价值的知识,进一步提高信息的利用率,由此引发了一有价值的知识,进一步提高信息的利用率,由此引发了一个新的研究方向:基于数据库的知识发现( 个新的研究方向:基于数据库的知识发现( Knowledge Knowledge Discovery in Database Discovery in Database )及相应的数据挖掘( )及相应的数据挖掘( Data Mining Data Mining ) ) 理论和技术的研究。理论和技术的研究。 2017-2-16 3 ??为什么数据挖掘是重要的为什么数据挖掘是重要的数据的丰富带来了对强有力的数据分数据的丰富带来了对强有力的数据分析工具的需求。快速增长的海量数据收集析工具的需求。快速增长的海量数据收集存放在大型和大量的数据库中,没有强有存放在大型和大量的数据库中,没有强有力的工具,这些数据就变成了力的工具,这些数据就变成了““数据坟数据坟墓墓””————难得再访问的数据档案。因此数据难得再访问的数据档案。因此数据和信息之间的鸿沟要求系统地开发数据挖和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识掘工具,将数据坟墓转换成知识““金块金块””。。 2017-2-16 4 KDD KDD 定义定义人们给人们给 KDD KDD 下过很多定义,内涵也各不下过很多定义,内涵也各不相同,目前公认的定义是由相同,目前公认的定义是由 Fayyad Fayyad 等人提出等人提出的。的。所谓基于数据库的知识发现所谓基于数据库的知识发现(KDD) (KDD) 是指是指从大量数据中提取有效的、新颖的、潜在从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过有用的、最终可被理解的模式的非平凡过程。程。二、二、 KDD KDD 与数据挖掘与数据挖掘 2017-2-16 5 KDD KDD 过程过程 KDD KDD 是一个人机交互处理过程。该过程是一个人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看, 用户提供。从宏观上看, KDD KDD 过程主要经过程主要经由三个部分组成,即数据整理、数据挖掘由三个部分组成,即数据整理、数据挖掘和结果的解释评估。和结果的解释评估。 2017-2-16 6知识发现( 知识发现( KDD KDD )的过程)的过程数据清理筛选数据目标数据预处理及变换变换后的数据数据挖掘解释/评估 2017-2-16 7知识发现( 知识发现( KDD KDD )的步骤)的步骤 1. :了解数据准备:了解 KDD KDD 应用领域的有关情况。包应用领域的有关情况。包括熟悉相关的知识背景,搞清用户需求。括熟悉相关的知识背景,搞清用户需求。 2. :数据选取的目的是确定目标数据, 数据选取:数据选取的目的是确定目标数据, 根据用户的需要从原始数据库中选取相关数据根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。对数据库进行相关处理。 3. :对步骤数据预处理:对步骤 2 2中选出的数据进行再处理, 中选出的数据进行再处理, 检查数据的完整性及一致性,消除噪声及与数检查数据的完整性及一致性,消除噪声及与数据挖掘无关的冗余数据,根据时间序列和已知据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。的变化情况,利用统计等方法填充丢失的数据。 2017-2-16 8 4. :根据知识发现的任务对经过预数据变换:根据知识发现的任务对经过预处理的数据再处理,主要是通过投影或利处理的数据再处理,主要是通过投影或利用数据库的其它操作减少数据量。用数据库的其它操作减少数据量。 5. KDD KDD 目标:根据用户的要求,确定目标:根据用户的

数据挖掘入门 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数91
  • 收藏数0 收藏
  • 顶次数0
  • 上传人aluyuw1
  • 文件大小1.20 MB
  • 时间2017-02-16