下载此文档

基于短文本数据库加载的高效去重方法的设计与实现.pdf

文档分类：论文 | 页数：约9页举报非法文档有奖

1/9

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/9 下载此文档

文档列表 文档介绍

基于短文本数据库加载的高效去重方法的设计与实现李韩伟红魏晗喙毓ぷ田近年来，随着产生和收集数据能力的迅速提高，电信、金融、电子商务等领域产生了大量的实时在线数据，其中以摘要数据和短语信息为主的短文本信息所占的比重也越来越大。这些海量短文本信息被存放到数据仓库中，以便于从中挖掘出有用信息。例如可以从海量短文本信息中发现热门话题，从而发现当前社会中受关注的焦点问题。也可以从海量短文本信息中发现异常的事件，提醒有关部门引起注意。但是，数据仓库中存在的大量重复短文本信息，不仅浪费了存储空间，对数据库后续处理的性能和准确度也造成极大影响，影响挖掘效果。因此，海量短文本数据库的去重处理有着重要的实用价值。本文主要针对海量短文本数据库的加载过程，设计并实现了一种基于，通用对象请求代理结构姆植际讲⑿腥重方法能够在×小时运行的海量短文本高速加载过程中，在不影响加载速度的前提下，完成重复数据的去除，同时使去重的精确度达到％以上。数据清洗是一个领域相关性非常强的工作，到目前为止没有形成通用的国际标准，只能根据不同的领域制定不同的清洗算法。目前的清洗算法的优良性衡量标准有以下几个方面：返回率：重复数据被正确识别的百分率；误判率：错误地作为重复数据的记录的百分比；精确度：识别的重复记录中的正确的重复记录的百分比，计算公式：精确度％．误判率。重复数据去除的基本方法是采取排序．合并方法。基本近邻排序算法砍槿∽侄作为关键字对数据集进行排序，将每条记录与数据库中其他记录进行比较。该方法识别重揽蒲Ъ际醮笱Ъ扑慊г海铣ど常摘要：去重处理是数据挖掘预处理中非常重要的一个环节。当前主流的数据清洗工具中对于重复数据的去除都是基于关系数据库，不适用于在加载过程中进行去重操作。本文针对海量短文本的加载，提出一种在分布式环境下，根据短文本的内容将数据散列到多台服务器上并行去除重复数据的方法Ｍ保A寺愫Ａ考釉氐男阅芤G螅褂锰卣髦到档臀谋酒ヅ规模，提高了去重性能。实验表明，谒奶ǚ衿魃夏苈亿条／天的加载性能，同时去重的精确度可以达到％以上．关键词：散列；特征值；分布式；短文本；去重算法联系作者：魏晗，男。硕士生，研究方向为分布计算和数据库基金资助：国家“八六三”项目
侍饷枋芴迳杓下几个方耐浚提出高效的异常数据检测算法来避免扫描整个庞大的数据集；谧远复数据精度较高，但是时间复杂度为J菘庵惺莸奶跏。在海量数据库中，其处理时间难以忍受。克惴ǘ曰玖诮判蛩惴ń辛烁慕８盟惴ㄔ诓煌淖侄上多次排序，并分别计算邻近记录的相似度，最后综合多次计算的结果完成记录匹配过程。这种算法提高了精确度，但不能正确地检测出数据库中没有包含主键域的记录。针对模式匹配，提出了多种减少匹配代价提高效率的策略。蚆都需要对整个数据库进行排序，不仅计算量非常大，而且通常内存需求也非常大。如果需要排序的数据存在一些错误，就会直接导致一些复制记录不能检测出来。因此，国内外最新的研究主要集中在以检测异常数据和进行清洗处理的步骤间增加人工判断处理：萸逑词倍允菁募处理；绾蜗喜⒑笫菁械闹馗词荩建立一个通用的领域无关的数据清洗框架：赜谀Ｊ郊傻奈侍狻枪揽拼蠹扑慊г貉兄频拇蠊婺Ｊ挛翊碇屑浼Ｋ腔曜迹捎枚嗍菘饧际酢⒉⑿惺菘饧际跻约***植际绞挛翊砑际趵粗С趾Ａ信息的存储、查询和分析。俏A嗽赟的加载过程去除重复数据而设计实现的方法，因此必须在去重处理的过程中保证加载的性能不受到影

基于短文本数据库加载的高效去重方法的设计与实现来自淘豆网www.taodocs.com转载请标明出处.