下载此文档

2021年大数据是什么意思 Web信息整合中的数据去重方法.docx


文档分类:IT计算机 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
2021年大数据是什么意思_Web信息整合中的数据去重方法大数据是什么意思_Web信息整合中的数据去重方法

     摘要:针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一个逐层聚类的数据去重方法SCDE。首先经过关键属性分割和Canopy聚类将数据划分成小统计集,然后准确检测相同反复统计,并提出基于动态权重的模糊实体匹配策略,采取动态权重赋值,降低属性缺失对统计相同度计算带来的影响,并对名称的特殊性进行处理,提升匹配正确率。试验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中正确率提升%。该方法已应用于林业黄页系统中,取得了很好的应用效果。
  关键词:Web信息整合;相同反复统计;动态权重;模糊实体匹配
  中图分类号:
  文件标志码:A
  0引言
  在对海量、异构、多源的Web信息进行整合过程中,存在大量相同反复统计1-2。因为“Garbage in, garbage out”,需要对这些统计进行清洗,即数据去重。数据去重过程中需要处理两个关键问题3:一是缩小搜索空间,二是相同统计的匹配。处理第一个问题的传统方法大全部基于排序合并的基础思想,比如滑动窗口4和优先队列5等,但因为字符位置敏感性不能确保相同的统计排在邻近的位置,造成其不能取得很好的效果。部分研究人员针对上述问题,提出将聚类技术用于反复统计检测。比如文件6改善了基于密度的聚类DensityBased Spatial Clustering of Applications with Noise, DBSCAN算法,文件7将统计映射成Qgram空间中的点后采取层次聚类实现检测。聚类方法在正确率和召回率等衡量指标上都有一定提升,但在Web信息整合中,数据量十分庞大,时间效率仍是实际应用中的瓶颈问题。
  针对第二个问题,常见的相同统计匹配算法有基础字符串匹配算法、xx距离算法、Qgram算法、SmithWaterman算法和基于它们的部分改善算法。这些算法较为成熟,在不一样领域证实了其适用性,但在Web信息整合环境下的正确率并不高。Web信息整合中的数据去重相对于通常数据去重而言有其特点,因为统计通常来自不一样的数据源,而不一样数据源对统计存放的目标有不一样的侧重,这么致使一些统计的一些属性可能会缺失,进而造成相同统计的匹配出现较大偏差。针对相同反复统计清洗中的两个关键问题结合Web信息整合的特点,本文提出一个逐层聚类的数据去重Stepwise Clustering Data Elimination, SCDE算法,并在准确去重阶段,提出基于动态权重的模糊实体匹配策略。
  1逐层聚类的数据去重方法
  本文提出的逐层聚类数据去重算法,首先由教授利用领域知识人工选定关键属性,依据其对统计集进行互无交叉的分割;然后借用Canopy聚类思想,使用一个开销小的算法对统计粗聚类;最终并行地在子统计集中经过两两比较准确去重相同统计,大大缩小搜索空间,降低计算量,提升了时间效率。另外,在子统计集中准确检测相同统计时,提出基于动态权重的模糊实体匹配策略,采取动态权重赋值的方法,降低了属性空值对相同统计匹配造成的影响,并对名称的特殊性进行处理,提升匹配正确率。
  关键属性分割
  因为Web信息资源丰富,一条统计往往由若干属性值组成,属性描述了实体统计的特征,但在

2021年大数据是什么意思 Web信息整合中的数据去重方法 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人书犹药也
  • 文件大小18 KB
  • 时间2021-03-25