下载此文档

知识发现与数据挖掘研讨.docx

文档分类：IT计算机 | 页数：约11页举报非法文档有奖

1/11

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/11 下载此文档

文档列表 文档介绍

先进制造技术讲座结课论文 1 知识发现理论与应用研究先进制造技术讲座结课论文 2 知识发现理论与应用研究摘要:知识发现方法极大地方便了用户从海量数据中提取出有用的知识。本文首先介绍了知识发现模型处理数据的过程。其次,数据挖掘是知识发现的关键步骤,对分类技术、关联分析技术和聚类技术三类数据挖掘技术进行了详细概述。最后,结合作者目前研究方向, 以个性化知识服务技术和设计理性模型知识挖掘过程为例,对涉及到的知识发现技术进行了分析。关键词:知识发现数据挖掘分类关联分析聚类 Research of Theory and Application of Knowledge Discovery Abstract : It has been much easier for users to extract useful knowledge from the massive data with knowledge discovery methods . First, the knowledge discovery model data process is introduced in this paper. Second, data mining isa key step in knowledge discovery. The classification techniques, association analysis techniques and clustering techniques are summarized in detail. At last, based on the current research direction, the personalized knowledge service technology and design rational knowledge model mining process are taken as examples to analyze the related knowledge discovery techniques. Key words : Knowledge discovery; Data mining; Classification; Association analysis; Clustering 1 前言随着云计算、云制造、物联网、大数据等信息技术的迅速发展以及企业信息化建设的不断推进, 企业在全生命周期业务活动中产生的数据增长迅速, 种类繁多、数量巨大[1]。例如, 记录企业销售和运转的详细情况的数据[2], 地球轨道卫星发送回地球的高分辨率图像和遥感数据[3] ,以及基因组实验对越来越多的有机体产生的序列、结构和技能数据等[4] 。未来学家约翰· 奈比斯特指出: “人类正被数据淹没,却饥渴于信息”。从浩瀚无际的数据海洋中发现潜在的、有价值的知识,是这个大数据时代的一个标志性工作[5]。然而, 虽然各行业拥有大量的数据, 但仍缺乏有用的知识。由于这些海量数据十分复杂, 且具有不完整、高维、异种、模糊和随机等非传统特点[6], 无法使用传统的数据分析工具和技术进行处理。为了解决这个问题, Fayyad 于 1989 年首次提出知识发现( Knowledge Discovery in Data , KDD )的概念[7] ,它是指从数据集中提取可信的、新颖的、具有潜在使用价值的能够被人类所理解的模式的非繁琐的处理过程。本文介绍了知识发现模型对数据的处理过程, 并对知识发现的关键步骤——数据挖掘技先进制造技术讲座结课论文 3 术进行了详细概述。在以上理论的基础上, 结合实际研究, 以个性化知识服务技术和设计理性模型知识挖掘过程为例,对涉及到的知识发现的关键技术进行了分析。 2 知识发现经典 KDD 处理模型又称阶梯处理模型,是 Fayyad 等人提出的具有九个步骤的阶梯递进的 KDD 处理模型,如图 1 所示,这九个步骤分别如下[8]。(1 )数据准备:了解应用领域的相关情况,熟悉相关背景知识,确定用户的需求。(2) 数据选择: 根据用户的要求从数据库中提取出与 KDD 相关的数据, KDD 将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数据进行处理。(3 )数据预处理:对从数据库中提取的数据进行清洗,检查数据的完整性及数据的一致性, 对其中的噪声数据、缺失数据进行处理。对噪声数据通常要解决的问题包括如何发现和处理重复记录和错误的属性值, 对数据采取什么样的数据平滑工作, 以及如何发现和处理孤立点。(4 )数据缩减:经过预处理的数据,根据知识发现的任务对数据进行再处理,主要通过投影或数据库中的其他操作减少数据量。(5) 确定 KDD 的目标: 根据用户的要

知识发现与数据挖掘研讨来自淘豆网www.taodocs.com转载请标明出处.