登录
|
注册
|
QQ账号登录
|
常见问题
联系我们:
我要上传
首页
浏览
幼儿/小学教育
中学教育
高等教育
研究生考试
外语学习
资格/认证考试
论文
IT计算机
经济/贸易/财会
管理/人力资源
建筑/环境
汽车/机械/制造
研究报告
办公文档
生活休闲
金融/股票/期货
法律/法学
通信/电子
医学/心理学
行业资料
文学/艺术/军事/历史
我的淘豆
我要上传
帮助中心
复制
下载此文档
一个关于数据清理的相似性连接处理的早期研究.doc
文档分类:
IT计算机
|
页数:约46页
举报非法文档有奖
分享到:
1
/
46
下载此文档
搜索
下载此文档
关闭预览
下载提示
1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档,不会出现我们的网址水印。
同意并开始全文预览
(约 1-6 秒)
下载文档到电脑,查找使用更方便
下 载
还剩?页未读,
继续阅读
分享到:
1
/
46
下载此文档
文档列表
文档介绍
一个关于数据清理的相似性连接处理的早期研究.doc
一个关于数据清理的相似性连接处理的早期研究.doc一个关于数据清理的相似性连接处理的早期研究
一个关于数据清理的相似性连接处理的早期研究
摘要
基于相似性的数据清理包括“关闭”的元组的识别,在那里选择合适的域和应用程序功能可以使用各种相似函数去评估数据的相似性。有效的实施这种相似连接的当前方法被紧紧地绑定到所选择的相似函数上。在本文中,我们提出一个新的原始运算符根据各种流行的连接字符串功能的相似性和超越的概念相似度的文本相似性可以用作一个基础来实现相似连接。 然后我们提出此运算符的有效实现。在实验评价中我们使用真实数据集,通过实验,我们看到,使用我们的运算符的相似性连接的执行是很优越的,而且往往远比以前的自定义实现特定功能的相似性好得多。
数据清理在填充和维护数据仓库和数据集中的数据存储库中是一个必不可少的步骤。一个非常重要的数据清洗操作是“加入”类似的数据。例如:考虑一个销售数据仓库,由于因为键入错误,公约差异等而产生的各种数据错误,会导致在销售记录中的产品名称,顾客名称不能正确的与主产品目录和客户登记记录
等相匹配。在这些情况下,最好执行相似的联接。例如:我们可能分别的关联两个产品,顾客信息中,如果他们的部分描述是分别地相似,那么顾客名字和地址的相似度就高。相似性数据连接问题在记录联系环境中已经计划好了,例如:[6、7],找出近似重复数据库中的实体例如:[5、9、11]。一个特定记录的识别最好的近似匹配域一个记录参考集[4],相似性连接是其中许多技术构建的基本操作。
当前方法利用相似属性值之间加入数据之间的关系,例如:在上面的例子中,部分描述是相似的。各种字符串相似函数已经被考虑在内,例如:编辑距离,accard相似,余弦相似和广义编辑距离[4],用于测量相似之处。然而,没有一个相似的字符串函数是已知的整体最佳功能的相似性函数,而选择通常取决于应用程序域[10,13]请参阅6节。例如:相同产品的一个有效的相似函数的特征基于他们的局部特征,但是即使是小的拼写错误也是不同于相同的街道地址错误,因为即使街道号码有小的不同也会有决定性的错误,例如:“148th Ave”和“147th Ave”。
两个关系R和S都包含一个列A的相似连接
是R和S关于θ的连接在连接断定θ是f (, ) >α,因为有一个相似函数f和一个门槛α。虽然相似连接也许通过用户定义函数(UDFs)被定义连接谓词表示在结构化查询语言中,但是在执行跨产品后,评价很低效,因为数据库系统通常被迫仅适用于基于UDF联接谓词。因此,已经开发专门的技术区有小的评估相似性连接。不过,所有的这些方法被自定义到特定的相似函数中。例如:[1、8、9]。
一个通用数据清洗平台能够有效地支持哪些面对不切实际的实施和维护有效地技术而是用的各种相似性函数。支持基础原始的或具有挑战性的选项,那可以被当做一个构造块而去实现多元化的相似性概念。
在本文中,我们建议SSJoin运算符用作基础的原始并显示可用于支持基于几个字符串相似的相似性联接功能。例如:编辑相似性,个采样点相似,广义编辑相似,汉明距离,soundex等,以及基于cooccurrences的相似。在定义SSJoin运算符,我们利用设置重叠的观察能有效支持多种功能的相似性函数[13]。SSJoin运算符比较的值基于“设置”与他们每一个的链接和显示构造。
因为稍后我们将显示,这个逻辑运算符的设计和实施,充分利用现有的关系运算符,并帮助定义丰富的选择空间,优化查询涉及的相似加入。
SSJoin——表示集的相似性连接——适合用于两个都包含列A和B的关系R和S。再元组中,。SSJoin字符组返回几组不同的的值对<,>,如果几组相应的R[B]和S[B]的值对的重叠式高于一个使用者指定的阈值,我们允许加权的和不加权的的版本。作为一个例子,考虑两个关系R [国家,城市]和S [国家,城市]。设置A=状态和B =城市,SSJoin运算符返回<, >值对,如果每个国家所发生的城市之间的重叠是超过阈值。因此,它可能会返回的对('华盛顿','WA')和(“威斯康星”,“无线”),因为这些群体内的城市设置重叠显著。第3节中,各种相似函数依赖相似连接能够被铸造成一个利用SSJoin运营商的设置。
然后,我们为SSJoin操作符开发高效的实现方法。我们首先表明,SSJoin运营商在结构化查询语言的等连接中能够被实现。我们进一步的优化脚本的实现执行,在那里不得不更高的基于两个集的高度重叠和两个集的更小子集的重叠的执行实现
。例如:如果有两组分别包含五个元素的集合,要求他们两个集合至少有四组元素是相同的,然后以2为大小的子集有非零的重叠。基于这一
一个关于数据清理的相似性连接处理的早期研究 来自淘豆网www.taodocs.com转载请标明出处.
猜你喜欢
细褶裙设计教案
3页
纸角菠萝教案
3页
幼儿牛奶蛋白过敏培训ppt课件
26页
粘土花卉工具教案
3页
篮球教案建议内容
3页
童年绘画小班教案
4页
立体粘土薰衣草教案
4页
行政公益诉讼业务培训ppt课件
31页
九年级物理上期半期考试检测试卷含答案
5页
九年级数学练习题 (2)
8页
秋游咯教案反思
2页
小班班主任培训ppt课件教案
24页
石头实践教案
3页
九年级化学期末综合练习(二)含答案
5页
白鹅教案苗苗教育
4页
相关文档
更多>>
非法内容举报中心
文档信息
页数
:
46
收藏数
:
0
收藏
顶次数
:
0
顶
上传人
:
天秤座
文件大小
:
478 KB
时间
:
2021-06-15
相关标签
数据相关性分析
导管相关性感染的处理措施
数据处理流程
数据处理方案
关于研究的论文
数据清理方案
数据处理算法
关于的处理意见
相似性分析
课题研究的理论依据怎么写
计算机原理
PHP资料
linux/Unix相关
C/C++资料
Java
.NET
windows相关
开发文档
管理信息系统
软件工程
网络信息安全
网络与通信
图形图像
行业软件
人工智能
计算机辅助设计
多媒体
软件测试
计算机硬件与维护
网站策划/UE
网页设计/UI
网吧管理
电子支付
搜索引擎优化
服务器
电子商务
Visual Basic
数据库
Web服务
网络资源
Delphi/Perl
Python
CSS/Script
Flash/Flex
手机开发
UML理论/建模
并行计算/云计算
嵌入式开发
计算机应用/办公自动化
数据结构与算法
SEO
最近更新
2024年家长写给老师的感谢信模板5篇
人教版小学数学六年级上册期末测试卷 (3)..
2024年家长会幼师自我介绍
2024年家禽养殖场买卖合同
实用的黑板报作文10篇(精选)
实用的项目实施方案集合十篇(全文共25244字..
综合解析重庆市实验中学物理八年级下册期末..
实用的项目实施方案九篇(全文共13978字)
实用的顶岗实习报告模板7篇(全文共14998字)..
2024年xx学院职业倾向性测试题库附参考答案..
实用的销售述职范文汇总五篇(全文共6621字)..
综合解析福建泉州市永春第一中学物理八年级..
2024年云南体育运动职业技术学院单招职业技..
2024年四川省高职单招职业适应性测试题库及..
2024年四川省高职单招职业适应性测试题库附..
2024年山东省高职单招职业适应性测试题库含..
2024年山西卫生健康职业学院单招综合素质考..
2024年江西应用技术职业学院单招职业技能测..
2024年河南省高职单招职业适应性测试模拟试..
2024年河南省高职单招职业适应性测试模拟试..
2024年河南省高职单招职业适应性测试题库及..
2024年河南省高职单招职业适应性测试题库附..
2024年湘南幼儿师范高等专科学校单招综合素..
2024年遵义师范学院单招职业适应性测试试题..
2024-2024学年八年级下学期英语期中考试卷(..
安检岗位培训课件
小学劳技课说课稿
2022畜牧业统计监测工作实施方案
饮水机定期清洗消毒制度
2019年甘肃普通话成绩查询入口【已开通】
在线
客服
微信
客服
QQ
客服
意见
反馈
手机
查看
返回
顶部