下载此文档

对数据挖掘的认识.doc


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
对数据挖掘得认识一、数据挖掘得理解数据挖掘就是从大量得、不完全得、有噪声得、模糊得、随机得数据集中识别出有效得、新颖得、潜在有用得,以及最终可理解得知识得非平凡过程。这个定义包括几层含义:数据源必须就是真实得、大量得、含噪声得;发现得就是用户感兴趣得知识;发现得知识要可接受、可理解、可运用;并不要求发现放之四海皆准得知识,仅支持特定得发现问题。数据挖掘,简单地可理解为通过对环境数据得操作,,包括机器学****数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。就具体应用而言,数据挖掘就是一个利用各种分析工具在海量数据中发现模型与数据间关系得过程,这些模型与关系可以用来做出预测。ﻫ     从商业角度上瞧,数据挖掘就是一种新得商业信息处理技术,其主要特点就是对商业数据库中得大量业务数据进行抽取、转换、分析与其她模型化处理,从中提取辅助商业决策得关键性数据。数据挖掘与传统得数据分析(如查询、报表、联机应用分析)得本质区别就是数据挖掘就是在没有明确假设得前提下去挖掘信息、,有效与可实用三个特征。先前未知得信息就是指该信息就是预先未曾预料到得,既数据挖掘就是要发现那些不能靠直觉发现得信息或知识,甚至就是违背直觉得信息或知识,挖掘出得信息越就是出乎意料,就可能越有价值。二、数据挖掘得主要方法数据挖掘技术主要来源于四个领域: 统计分析、机器学****神经网络与数据库。所以,数据挖掘得主要方法可以粗分为:统计方法、机器学****方法、神经网络方法与数据库方法。ﻫ    统计方法主要包括:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗集、支持向量机等。模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别与模糊聚类分析。系统得复杂性越高,模糊性越强,一般模糊集合理论就是用隶属度来刻画模糊事物得亦此亦彼性得。粗集方法建立在粗集理论上。粗集理论就是一种研究不精确、不确定知识得数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息得表达空间;算法简单,易于操作。粗集处理得对象就是类似二维关系表得信息表。目前成熟得关系数据库管理系统与新发展起来得数据仓库管理系统,,难以直接处理连续得属性。而现实信息表中连续属性就是普遍存在得。:归纳学****方法(决策树、规则归纳等)、基于范例得推理CBR、遗传算法、贝叶斯信念网络等。决策树就是一种常用于预测模型得算法,它通过将大量数据有目得分类,从中找到一些有价值得,潜在得信息。它得主要优点就是描述简单,分类速度快,特别适合大规模得数据处理。最有影响与最早得决策树方法就是由Quinlan提出得著名得基于信息熵得ID3算法。它得主要问题就是:ID3就是非递增学****算法;ID3决策树就是单变量决策树,复杂概念得表达困难;同性间得相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好得改进算法,如 Schlimmer与Fisher设计了ID4递增式学****算法;钟鸣,陈文伟等提出了

对数据挖掘的认识 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人h377683120
  • 文件大小20 KB
  • 时间2020-08-10