登录
|
注册
|
QQ账号登录
|
常见问题
联系我们:
我要上传
首页
浏览
幼儿/小学教育
中学教育
高等教育
研究生考试
外语学习
资格/认证考试
论文
IT计算机
经济/贸易/财会
管理/人力资源
建筑/环境
汽车/机械/制造
研究报告
办公文档
生活休闲
金融/股票/期货
法律/法学
通信/电子
医学/心理学
行业资料
文学/艺术/军事/历史
我的淘豆
我要上传
帮助中心
复制
下载此文档
2021年大数据是什么意思 Web信息整合中的数据去重方法.docx
文档分类:
IT计算机
|
页数:约7页
举报非法文档有奖
分享到:
1
/
7
下载此文档
搜索
下载此文档
关闭预览
下载提示
1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档,不会出现我们的网址水印。
同意并开始全文预览
(约 1-6 秒)
下载文档到电脑,查找使用更方便
下 载
还剩?页未读,
继续阅读
分享到:
1
/
7
下载此文档
文档列表
文档介绍
2021年大数据是什么意思 Web信息整合中的数据去重方法.docx
2021年大数据是什么意思_Web信息整合中的数据去重方法大数据是什么意思_Web信息整合中的数据去重方法
摘要:针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一个逐层聚类的数据去重方法SCDE。首先经过关键属性分割和Canopy聚类将数据划分成小统计集,然后准确检测相同反复统计,并提出基于动态权重的模糊实体匹配策略,采取动态权重赋值,降低属性缺失对统计相同度计算带来的影响,并对名称的特殊性进行处理,提升匹配正确率。试验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中正确率提升%。该方法已应用于林业黄页系统中,取得了很好的应用效果。
关键词:Web信息整合;相同反复统计;动态权重;模糊实体匹配
中图分类号:
文件标志码:A
0引言
在对海量、异构、多源的Web信息进行整合过程中,存在大量相同反复统计1-2。因为“Garbage in, garbage out”,需要对这些统计进行清洗,即数据去重。数据去重过程中需要处理两个关键问题3:一是缩小搜索空间,二是相同统计的匹配。处理第一个问题的传统方法大全部基于排序合并的基础思想,比如滑动窗口4和优先队列5等,但因为字符位置敏感性不能确保相同的统计排在邻近的位置,造成其不能取得很好的效果。部分研究人员针对上述问题,提出将聚类技术用于反复统计检测。比如文件6改善了基于密度的聚类DensityBased Spatial Clustering of Applications with Noise, DBSCAN算法,文件7将统计映射成Qgram空间中的点后采取层次聚类实现检测。聚类方法在正确率和召回率等衡量指标上都有一定提升,但在Web信息整合中,数据量十分庞大,时间效率仍是实际应用中的瓶颈问题。
针对第二个问题,常见的相同统计匹配算法有基础字符串匹配算法、xx距离算法、Qgram算法、SmithWaterman算法和基于它们的部分改善算法。这些算法较为成熟,在不一样领域证实了其适用性,但在Web信息整合环境下的正确率并不高。Web信息整合中的数据去重相对于通常数据去重而言有其特点,因为统计通常来自不一样的数据源,而不一样数据源对统计存放的目标有不一样的侧重,这么致使一些统计的一些属性可能会缺失,进而造成相同统计的匹配出现较大偏差。针对相同反复统计清洗中的两个关键问题结合Web信息整合的特点,本文提出一个逐层聚类的数据去重Stepwise Clustering Data Elimination, SCDE算法,并在准确去重阶段,提出基于动态权重的模糊实体匹配策略。
1逐层聚类的数据去重方法
本文提出的逐层聚类数据去重算法,首先由教授利用领域知识人工选定关键属性,依据其对统计集进行互无交叉的分割;然后借用Canopy聚类思想,使用一个开销小的算法对统计粗聚类;最终并行地在子统计集中经过两两比较准确去重相同统计,大大缩小搜索空间,降低计算量,提升了时间效率。另外,在子统计集中准确检测相同统计时,提出基于动态权重的模糊实体匹配策略,采取动态权重赋值的方法,降低了属性空值对相同统计匹配造成的影响,并对名称的特殊性进行处理,提升匹配正确率。
关键属性分割
因为Web信息资源丰富,一条统计往往由若干属性值组成,属性描述了实体统计的特征,但在
2021年大数据是什么意思 Web信息整合中的数据去重方法 来自淘豆网www.taodocs.com转载请标明出处.
猜你喜欢
2024年小学一年级班主任期末工作总结
27页
2024年小升初自我推荐信范文4篇
9页
2024年小区建议书模板集合6篇
7页
语开头的四字词语有哪些
3页
2024年导游全陪欢迎词
23页
2024年对民警的表扬信
16页
2024年对小朋友的简短祝福语(精选245句)
25页
2024年寒假的快乐生活作文15篇
11页
2024年寒假开学的周记
9页
英语说明文的写作方法指导
6页
2024年寒假假期日记范文(精选58篇)
91页
致环保局长的一封信
3页
2024年宽容为话题作文集合九篇
13页
自我激励格言
8页
审计实习报告范文合集8篇(全文共15269字)
3页
相关文档
更多>>
非法内容举报中心
文档信息
页数
:
7
收藏数
:
0
收藏
顶次数
:
0
顶
上传人
:
书犹药也
文件大小
:
18 KB
时间
:
2021-03-25
相关标签
数据去重方法
什么是大数据分析
什么是数据分析
数据整合方案
大数据与大数据分析
大数据算法
数据整合解决方案
数据整理方案
大数据方案
信息系统数据管理办法
计算机原理
PHP资料
linux/Unix相关
C/C++资料
Java
.NET
windows相关
开发文档
管理信息系统
软件工程
网络信息安全
网络与通信
图形图像
行业软件
人工智能
计算机辅助设计
多媒体
软件测试
计算机硬件与维护
网站策划/UE
网页设计/UI
网吧管理
电子支付
搜索引擎优化
服务器
电子商务
Visual Basic
数据库
Web服务
网络资源
Delphi/Perl
Python
CSS/Script
Flash/Flex
手机开发
UML理论/建模
并行计算/云计算
嵌入式开发
计算机应用/办公自动化
数据结构与算法
SEO
最近更新
重庆市巴南中学物理八年级下册期末考试定向..
2024年小学周记200字(通用30篇)
全国7月高等教育资产评估自学考试试题及答案..
2024年小学作文:我最喜爱的一本书
迎元旦班级活动策划方案范本
2024年小学五年级数学学科教学工作总结范文..
人教通用版本-小学二年级-搭配组合题大全大..
责任保证书范文汇编五篇
2024年小区车位租赁合同(精华15篇)
2024年对学校的祝福语
西安交通大学附属中学分校物理八年级下册期..
著名悼亡诗词(精选10篇)
2023年茶叶进出口合同(模板三篇)
幼儿园游戏观察教研活动
小老鼠打电话课件
《佛说天地八阳神咒经》注音版(可直接A4纸打..
肉品课验收标准
亨利八世PPT
浅谈航空公司服务营销
射波刀治疗胰腺癌的护理
格宾挡墙专项施工方案
《GJBZ 141-2016 军用软件测试指南》.pdf
在线
客服
微信
客服
QQ
客服
意见
反馈
手机
查看
返回
顶部