《数据采掘入门及应用》中 国统计出版社.pdf


文档分类:论文 | 页数:约110页 举报非法文档有奖
1/110
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/110
文档列表 文档介绍
第一章简介
前言
当前,无论在学术界还是产业界都是一个相当时髦和红火
的专题。的汉语名称有:数据采掘、数据淘金和数据采矿,还没有
一个一致公认的译法,一般还是喜欢用英文“”这个词,今后我们常
用这样的简写来表示,因为很难找到一个确切的汉语词汇与之对应。
直观上说, 就是要采掘出隐藏在原始数据中对决策有用的
信息,为管理和研究服务。难怪很多人称之为数据淘金。下面将会给出更
详细的说明。
《商业周刊》中文版年第期发表的《在原始数据中寻找关系》
一文( ,讲的就是及其在各个领域中的应用。
虽然文章主要讲的是关于数据搜索技术、数据仓库技术,但讲的内容确是
在银行、保险、电信及超市等方面的具体应用问题,并给出了由
于进行了而获得了巨大回报的具体案例,如通讯公司,
百货公司等。这说明一开始就是作为一个新兴的
现代技术出现的。
信息技术的发展,企业、政府机构可以很方便地收集到大量的资料。例
如超级市场的每一顾客、他的每一次购物的状况就自动汇集到电脑中,所以
几乎不费太多的成本就收集到非常庞大的数据。又如银行客户在每次刷卡
时,就自动将取款数量、用途、日期等种种信息输入电脑。因此,管理人员面
对的数据量是非常之大的,用大量数据已不足于反映,通常称之为海量数
据。数据大到几十万、上百万,这时很简单的运算,也会成为很困难的事,例
如要将这上百万个数据按大小排个次序,就成了耗时的运算,更不用说进一
台湾地区出版物。
步的分析了。“量变引起质变”。面对海量数据,相应的分析方法必须要有
新的思路,这是数据采掘面对的难题之一。与量的增大的同时,往往资料涉
及的面也非常宽。例如保险公司不仅有投保人的资料,还可以存有他的家
庭、亲属、所在单位的种种资料,从统计上看,资料的维数很高,这是数据采
掘面对的另一个难题。
另一方面,海量数据中确实隐含着各种各样的信息,这些信息往往人们
凭直觉与经验是难于发现的,而电脑的特点是不怕多、不怕烦, 是可以耐
心地仔细处理,数据越多,对研究目标越了解,也就越容易发现有用的规律。
事实上,人们的经验也就是从自己经历的过去资料中,凭自己的感觉归纳出
来的一些被自己的实践证明是有效的规律,只是缺乏理论的依据,或依据不
足,或是没有深入去研究分析而已。而电脑就可以汇集种种经历,可以汇集
种种发现、综合的方法,由一些程序、算法来处理数据这就是结经验。
数据采掘正是在这种情况下,从一些个案的处理,克服了许多困难,利
用了并行算法、人工智能、统计分析的技术,综合成一种新的、能快速处理大
量、海量数据的技术,被美国麻省理工学院( )评为在未来发展中最有前
途的十大技术之一。
什么是
是目前行业发展最快的产业,并且许多不同领域的专
家,如统计学家,金融学家等,对也产生了极大的兴趣。计算
机技术,统计分析方法、各类算法及行业知识的结合推动了技
术的快速发展。
关于的定义,有各种说法:
)的定义:
(数据采掘是在庞大的数据
库中找出有意义或有价值信息的方法);
)的定义:
(”数
据采掘是从储存在数据库的大量数据资料中,设置盘问,提取以前未知的信
息、模式和趋势的方法);
) 的定义:
数据采掘是从大量储存的数据中,利用模式识别、统计和数学
的技术、筛选发现新的有意义的关系、模式和趋势的方法);
的定义:
(这些技术
现在用于发现潜藏在金融数据库中的趋势与模式);
)的下面这段话会让我们对有更深
刻的了解。分析报告给你的是后见之明( 统计分析给你的是先
机( 给你识见(
从上述定义得出:数据采掘)所要处理的问题,就是在庞大
的数据库中寻找出有价值的隐藏事件,加以分析,并将这些有意义的信息归
纳成结构模式,作为企业在进行决策时之参考。此外,数据采掘看重的是数
据库的再分析,包括模式的建构或是资料特征的判定,其主要目的就是要从
数据库中发现先前关心却未曾获悉的有价值信息( 事实上,
数据采掘并不只是一种技术或是一套软件,而是数种专业技术的综合应用。
是指找寻隐藏在资料中的信息,如趋势( 、特征
)关系( )的过程,也就是从资料中发掘信息或知识(有人
称为,也有人称为“资料考古学
“资料模式分析”)或“功能相依分
析”,目前已被许多研究人员视为结合数
据库系统与机器学****技术的重要领域,许多产业界人士也认为此领域是一
项能增加企业潜能的重要途径。这一领域蓬勃发展的原因是因为现代的企
业已搜集了大量资料,包括市场、客户、供货商、竞争对手以及未来趋势等重
要信息,但是数据的超载与无结构化,使得企业决策单位无法有效利用现存
的资料,甚至会使决策行为产生混乱与误

《数据采掘入门及应用》中 国统计出版社 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数110
  • 收藏数0 收藏
  • 顶次数0
  • 上传人Q+1243595614
  • 文件大小4.03 MB
  • 时间2017-09-19