下载此文档

2021年大数据是什么意思 Web信息整合中的数据去重方法.docx

文档分类：IT计算机 | 页数：约7页举报非法文档有奖

1/7

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/7 下载此文档

文档列表 文档介绍

2021年大数据是什么意思_Web信息整合中的数据去重方法大数据是什么意思_Web信息整合中的数据去重方法

　　　　摘要：针对现有数据去重方法中存在的时间效率和检测精度低的问题，结合Web信息整合的特点，提出一个逐层聚类的数据去重方法SCDE。首先经过关键属性分割和Canopy聚类将数据划分成小统计集，然后准确检测相同反复统计，并提出基于动态权重的模糊实体匹配策略，采取动态权重赋值，降低属性缺失对统计相同度计算带来的影响，并对名称的特殊性进行处理，提升匹配正确率。试验结果显示：该方法在时间效率和检测精度上均优于传统算法，其中正确率提升%。该方法已应用于林业黄页系统中，取得了很好的应用效果。
　　关键词：Web信息整合；相同反复统计；动态权重；模糊实体匹配
　　中图分类号：
　　文件标志码：A
　　0引言
　　在对海量、异构、多源的Web信息进行整合过程中，存在大量相同反复统计1-2。因为“Garbage in， garbage out”，需要对这些统计进行清洗，即数据去重。数据去重过程中需要处理两个关键问题3：一是缩小搜索空间，二是相同统计的匹配。处理第一个问题的传统方法大全部基于排序合并的基础思想，比如滑动窗口4和优先队列5等，但因为字符位置敏感性不能确保相同的统计排在邻近的位置，造成其不能取得很好的效果。部分研究人员针对上述问题，提出将聚类技术用于反复统计检测。比如文件6改善了基于密度的聚类DensityBased Spatial Clustering of Applications with Noise， DBSCAN算法，文件7将统计映射成Qgram空间中的点后采取层次聚类实现检测。聚类方法在正确率和召回率等衡量指标上都有一定提升，但在Web信息整合中，数据量十分庞大，时间效率仍是实际应用中的瓶颈问题。
　　针对第二个问题，常见的相同统计匹配算法有基础字符串匹配算法、xx距离算法、Qgram算法、SmithWaterman算法和基于它们的部分改善算法。这些算法较为成熟，在不一样领域证实了其适用性，但在Web信息整合环境下的正确率并不高。Web信息整合中的数据去重相对于通常数据去重而言有其特点，因为统计通常来自不一样的数据源，而不一样数据源对统计存放的目标有不一样的侧重，这么致使一些统计的一些属性可能会缺失，进而造成相同统计的匹配出现较大偏差。针对相同反复统计清洗中的两个关键问题结合Web信息整合的特点，本文提出一个逐层聚类的数据去重Stepwise Clustering Data Elimination， SCDE算法，并在准确去重阶段，提出基于动态权重的模糊实体匹配策略。
　　1逐层聚类的数据去重方法
　　本文提出的逐层聚类数据去重算法，首先由教授利用领域知识人工选定关键属性，依据其对统计集进行互无交叉的分割；然后借用Canopy聚类思想，使用一个开销小的算法对统计粗聚类；最终并行地在子统计集中经过两两比较准确去重相同统计，大大缩小搜索空间，降低计算量，提升了时间效率。另外，在子统计集中准确检测相同统计时，提出基于动态权重的模糊实体匹配策略，采取动态权重赋值的方法，降低了属性空值对相同统计匹配造成的影响，并对名称的特殊性进行处理，提升匹配正确率。
　　关键属性分割
　　因为Web信息资源丰富，一条统计往往由若干属性值组成，属性描述了实体统计的特征，但在

2021年大数据是什么意思 Web信息整合中的数据去重方法来自淘豆网www.taodocs.com转载请标明出处.