下载此文档

一、数据挖掘的概念:.docx


文档分类:IT计算机 | 页数:约29页 举报非法文档有奖
1/29
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/29 下载此文档
文档列表 文档介绍
一、数据挖掘的概念:.docx一、 数据挖掘的概念:数据挖掘,又称为数据采掘、数据开采等。一般认为数据挖掘是数据库中知识发现(KnowledgeDiscoveryinDatabase,简记KDD)的一个环节,是KDD屮采用具体的数拯挖掘算法从数摇屮口动高效地提取有用模式的最重要的步骤[19]O数据•挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据-集屮识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程C它是一门涉及面很广的交叉学科,包括机器学****数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术〔⑸。数据•挖掘是一门交叉性学科,有很多不同的术语名称。其屮,最常用的是”知识发现”和”数据挖掘”。相对来讲,数据挖掘主要流行于统计界(最早出现于统计文献屮)、数扌居分析、数据库和管理信息系统界;而知识发现则主耍流行于人工智能和机器学****界C数据挖掘可粗略地理解为三部曲:数据准备(datapreparation).数据挖掘以及结果的解释评估(interpretationandevaluation)o根据•数据•挖掘的任务分,有如下几种:分类或预测模型数据•挖掘、数据-总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等。根据•数据•挖掘的对象分,有如下若干种数据•源:关系数据•库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(legacy)数扌居库、Web数据•源。根据•数据•挖掘的方法分,可粗分为:统计方法、机器学****方法、神经网络方法和数据库方法。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学****中,可细分为:归纳学****方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,口J细分为:前向神经网络0BP算法等)、自纽织神经网络(口纽织特征映射、竞争学****等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。数扌居库能有效地存储数扌居和查询数扌居,但不能有效地分析数扌居。数拯挖掘不但分析数据,而且帮助用户得知原因,并预测未来。囚此,数拯挖掘被普遍认为是非常有效的数据分析工具,被信息产业界认为是数据库系统最重要的前沿技术之一,是信息产业最有前途的交叉学科。数据•挖掘的过程:1) 了解应用领域,掌握相关先验知识以及应用的目标。2) 收集并集成数据。3) 对数据•进行清洁和预处理。4) 対数据进行归约和投影(发现有用特征,降维和变量约简)。5) 确定适当的数据•挖掘功能(总结、分类、回归、关联、聚类)。6) 确定数据•挖掘算法,并进行数据•挖掘。7) 対挖掘结呆进彳丁评彳占。8) 対挖掘结果进彳丁解释:分析结果。9) 应用发现的知识。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据•挖掘任务一般分两类:1) 描述式数据挖掘:刻划DB屮数据的一般特性。2) 预测式数据挖掘:在当前数据上进行推断,以进行预测。数据挖掘的方法包括1) 统计分析方法:对关系表的各属性进行统计分析,找到它们之间存在的关系。2) 决策树:决策树可用于分类。3) 人工神经网络:人工神经网络用于分类、聚类、特征挖掘、预测和模式识别。4) 遗传算法(icAlgorithm):遗传算法用于分类、关系型规则挖掘等。5) 粗糙集:粗糙集用于数据简化、数据意义评估、对象相似性或共性分析、因果关系及范式挖掘等。6) 联机分析处理技术。基于关系数据库的多维关联规则数据挖扌这一节主要介绍系统屮使用的基于关系数据库的多维关联规则数据挖掘方面的技术。一、 关联规则数据•挖掘关联规则挖掘是数据挖掘研究的一个重耍分支,关联规则是数据挖掘的众多知识类型中最为典型的一种。目前关联规则挖掘问题已经引起了数据库、人工智能、统计学、信息检索、可视化及信息科学等诸多领域的广大学者和研究机构的高度重视,取得了许多研究成果。由于关联规则形式简洁、易于解释和理解并可以有效地捕捉数据间的重要关系,因此从大型数据库中挖掘关联规则问题已成为数据•挖掘屮最成熟、最重要、最活跃的研究内容。关联规则挖掘最早是由Agrawal等人提出的。最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货、库存以及货架设计等。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作涉及到关联规则的挖掘理论的探索、原有的算法的改进和新算法的设计、并行关联规则挖掘(ParallelAssociationRuleMining)

一、数据挖掘的概念: 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数29
  • 收藏数0 收藏
  • 顶次数0
  • 上传人pppccc8
  • 文件大小171 KB
  • 时间2020-09-29