下载此文档

一个关于数据清理的相似性连接处理的早期研究.doc


文档分类:IT计算机 | 页数:约46页 举报非法文档有奖
1/46
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/46 下载此文档
文档列表 文档介绍
一个关于数据清理的相似性连接处理的早期研究.doc一个关于数据清理的相似性连接处理的早期研究
一个关于数据清理的相似性连接处理的早期研究
摘要
基于相似性的数据清理包括“关闭”的元组的识别,在那里选择合适的域和应用程序功能可以使用各种相似函数去评估数据的相似性。有效的实施这种相似连接的当前方法被紧紧地绑定到所选择的相似函数上。在本文中,我们提出一个新的原始运算符根据各种流行的连接字符串功能的相似性和超越的概念相似度的文本相似性可以用作一个基础来实现相似连接。 然后我们提出此运算符的有效实现。在实验评价中我们使用真实数据集,通过实验,我们看到,使用我们的运算符的相似性连接的执行是很优越的,而且往往远比以前的自定义实现特定功能的相似性好得多。

数据清理在填充和维护数据仓库和数据集中的数据存储库中是一个必不可少的步骤。一个非常重要的数据清洗操作是“加入”类似的数据。例如:考虑一个销售数据仓库,由于因为键入错误,公约差异等而产生的各种数据错误,会导致在销售记录中的产品名称,顾客名称不能正确的与主产品目录和客户登记记录
等相匹配。在这些情况下,最好执行相似的联接。例如:我们可能分别的关联两个产品,顾客信息中,如果他们的部分描述是分别地相似,那么顾客名字和地址的相似度就高。相似性数据连接问题在记录联系环境中已经计划好了,例如:[6、7],找出近似重复数据库中的实体例如:[5、9、11]。一个特定记录的识别最好的近似匹配域一个记录参考集[4],相似性连接是其中许多技术构建的基本操作。
当前方法利用相似属性值之间加入数据之间的关系,例如:在上面的例子中,部分描述是相似的。各种字符串相似函数已经被考虑在内,例如:编辑距离,accard相似,余弦相似和广义编辑距离[4],用于测量相似之处。然而,没有一个相似的字符串函数是已知的整体最佳功能的相似性函数,而选择通常取决于应用程序域[10,13]请参阅6节。例如:相同产品的一个有效的相似函数的特征基于他们的局部特征,但是即使是小的拼写错误也是不同于相同的街道地址错误,因为即使街道号码有小的不同也会有决定性的错误,例如:“148th Ave”和“147th Ave”。
两个关系R和S都包含一个列A的相似连接
是R和S关于θ的连接在连接断定θ是f (, ) >α,因为有一个相似函数f和一个门槛α。虽然相似连接也许通过用户定义函数(UDFs)被定义连接谓词表示在结构化查询语言中,但是在执行跨产品后,评价很低效,因为数据库系统通常被迫仅适用于基于UDF联接谓词。因此,已经开发专门的技术区有小的评估相似性连接。不过,所有的这些方法被自定义到特定的相似函数中。例如:[1、8、9]。
一个通用数据清洗平台能够有效地支持哪些面对不切实际的实施和维护有效地技术而是用的各种相似性函数。支持基础原始的或具有挑战性的选项,那可以被当做一个构造块而去实现多元化的相似性概念。
在本文中,我们建议SSJoin运算符用作基础的原始并显示可用于支持基于几个字符串相似的相似性联接功能。例如:编辑相似性,个采样点相似,广义编辑相似,汉明距离,soundex等,以及基于cooccurrences的相似。在定义SSJoin运算符,我们利用设置重叠的观察能有效支持多种功能的相似性函数[13]。SSJoin运算符比较的值基于“设置”与他们每一个的链接和显示构造。
因为稍后我们将显示,这个逻辑运算符的设计和实施,充分利用现有的关系运算符,并帮助定义丰富的选择空间,优化查询涉及的相似加入。
SSJoin——表示集的相似性连接——适合用于两个都包含列A和B的关系R和S。再元组中,。SSJoin字符组返回几组不同的的值对<,>,如果几组相应的R[B]和S[B]的值对的重叠式高于一个使用者指定的阈值,我们允许加权的和不加权的的版本。作为一个例子,考虑两个关系R [国家,城市]和S [国家,城市]。设置A=状态和B =城市,SSJoin运算符返回<, >值对,如果每个国家所发生的城市之间的重叠是超过阈值。因此,它可能会返回的对('华盛顿','WA')和(“威斯康星”,“无线”),因为这些群体内的城市设置重叠显著。第3节中,各种相似函数依赖相似连接能够被铸造成一个利用SSJoin运营商的设置。
然后,我们为SSJoin操作符开发高效的实现方法。我们首先表明,SSJoin运营商在结构化查询语言的等连接中能够被实现。我们进一步的优化脚本的实现执行,在那里不得不更高的基于两个集的高度重叠和两个集的更小子集的重叠的执行实现
。例如:如果有两组分别包含五个元素的集合,要求他们两个集合至少有四组元素是相同的,然后以2为大小的子集有非零的重叠。基于这一

一个关于数据清理的相似性连接处理的早期研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数46
  • 收藏数0 收藏
  • 顶次数0
  • 上传人天秤座
  • 文件大小478 KB
  • 时间2021-06-15
最近更新