下载此文档

数据挖掘技术.docx


文档分类:IT计算机 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
数据挖掘技术.docx数据挖掘技术
学生姓名:
学 号:
业:计算机科学与技术
班 级:
一、 实验名称:基于K最近邻距离的离群点挖掘实验
二、 实验目的
1、 掌握基于K最近邻距离的离群点的数据挖掘算法
2、 通过查找数据中的离群点对数据进行异常分析
三、实验数据
Clementine数据质量的探究主要包括数据缺失问题、数据离群点和极端值 两大方而。离群点是指数据中,远离数值的一般水平的极端大值和极端小值,也 称之为歧异值,有时也称其为野值,其对后续的数据处理有很大的影响;
本文研究的冃的是拟建立适当的数学模型,评判出一组数据中的离群点,并 对出现的离群点进行处理。本示例将离群点模型应用于开河数据提取,其中的冃 标字段为开河日期天数。变量字Clementine段包括0221-0302三湖河口平均流 量(XI), 0109-0126平均流量(X2), 0221-0302平均流量(X3),二月下旬平均 水位(X4),最高气温转正日到0302累计最高正气温(X5), 0221-0302气温和 (X6)(为绝对温度),二月下旬平均气温(X7)(为绝对温度)最高气温转正 天数(X8)(连续为正日期距离2月1日的天数,考虑到可能出现负数,因此+30), 最大冰厚(X9)。
此示例使用名为Streaml. str的流, 件。这些文件可以任何Clementine Client程序打开。此冃录可通过Windows “开始”菜单的Clementine程序组进行访问。
实验原理
基于邻近度的离群点检测是指一个对象是异常的,如果它远离大部分点。这种 方法比统计学方法更一般、更容易使用,因为确定数据集的有意义的邻近性度量 比确定它的统计分布更容易。一个对象的离群点得分由到它的k-最近邻的距离 给定。离群点得分对k的取值高度敏感。如果k太小(例如1),则少量的邻近 离群点可能导致较低的离群点得分;如果K太大,则点数少于k的簇中所有的对 象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性,可以使用k 个最近邻的平均距离。
对于正整数K,对象卩到K的最近邻距离K-DI STANCE (P)定义为:
除 P 外,至少有 K 个对象 0 满足 distance (P, 0) <=k-distance(P)
除 P 外,至少有 K-1 个对象 0 满足 distance (P,0) <k~distance(P) 一个对象的最近邻的距离越大,越可能远离大部分数据。
点x的离群因子定义为:
0F1 (x, k) = (Ey^N(x, k) distance (x, y))/(|N(x, k) |)
这里N(x, k)是不包括x的k-最近邻的集合,
N(x, k) = {y | distance (x, y) <=k~distance (x), yHx}
|N(x, k) |是该集合的大小。
基于k最近邻的离群点检测算法(伪代码): 输入:数据集D;最近邻个数k 输出:离群点对象列表
1: for all 对象 x DO 2:确定x的k-最近邻集合N (x, k)
3:确定x的离群因子0F1 (x, k) 4: end for 5:对离群因子降序排列,确定离群因子大的若干对象 6: return
五、实验过程
1>,为流添加类型 节点,如下图所示:
♦ Excel
2 Refresh
C:\Documents and SettingsV\dministrato面軒河数据提取 xIs
Importfile:
CADocuments and SettingsVkdministratohM面河数据提取 xIs
口 Use Named Range
Worksheet: ® Index
0
O Explicit range
Data raFirst non・blank row Blank rows:
C Name
Data Filter Types Annotations
| OK | Cancel
Apply | Reset
2、参数设置,如下图所示:
r
• Type
0 First row contains field names
> Read Values
ClearValues Clear All Values
Field
Type
Values
Missing Check Directi on
0221-0302 二月下旬平 杲高气温转 0221-0302
旬温厚数 下气冰天 月高大河 二S杲开
Discrete
<Read>
Discrete

数据挖掘技术 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sssmppp
  • 文件大小429 KB
  • 时间2020-12-12