下载此文档

大数据下MongoDB数据库数据文档存储去重研究.docx

文档分类：IT计算机 | 页数：约5页举报非法文档有奖

1/5

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/5 下载此文档

文档列表 文档介绍

大数据下MongoDB数据库数据文档存储去重研究

李兴武
摘要：随着现代科技的逐渐发展，我国对于档案存储的研究也得到了社会各界的广泛重视，因此需要利用对存储档案文档管理进行重复的去重操作。
关键词：大数据；MongoDB数据库；档案文档存储；去重研究
：TP311 ：A ：1007-9416（2017）09-0099-01
1 传统的档案存储
在传统的档案存储的过程当中，主要是对文档来进行文件的形式进行存储，对于原本的数据需要根据实际情况来建立起档案文件和数据的链接，并把该链接的路径存储在关系数据库中。在此种方式下对文件进行存储的过程当中，会产生相当多的重复文件。[1]因此在其存储的过程当中为了避免出现重复的现象，都需要进行人工的方式来检查。在这种方式下，存储空间很快会被耗尽，要靠不断的增加存储设备来解决大量档案数据存放的问题，同时在管理方面也是相当不利的，在扩展性方面是相对较差的。在此种情况下，就需要利用
MongoDB数据库来存储这些非结构化的数据，并且在存放之前就完成对重复档案文档的去重操作。
2 MongoDB數据库存储和管理机制
多用户存储机制
在进行存储的过程当中，MongoDB数据库提供主从复制和副本集复制2种方式满足冗余备份与高可用性。一般来说都是需要主从复制的，可以在进行复制的过程的当中对数据做出有效的转移和优化。并且在对MongoDB数据库当中还可以实现自动切片功能，易于实现横向扩展。此项功能主要适用于在用户存储量相对较大的情况下，其中所产生的数据量和频繁的I/O操作也是相对较多的，因此可以采用自动切片与副本集复制相结合的方式，来实现对不同的数据集合进行分层存储，这样一来在每一个分片当中都会具备不同的多个副本，从而对数据库服务器端实现故障转移以及自动扩展的现象，[2]其流程图如图1所示。在客户对其中的数据进行读取的时候，可以调用路由进程，并从配置服务器中读取数据与片的对应关系等信息，实现对数据信息的有效读取。
矢量空间数据存储
在对数据进行存储的过程当中，需要对数据的格式进行掌握和了解，一般情况下，在传统的矢量型空间数据格式包括Shapefile、TAB、GML、GeoJSON等类型。因此在对其数据进行存储到MongoDB数据库的时候，需要在中间件来对矢量的数据文件进行读取，最后将其转化成为MongoDB数据库可以存储读取的数据。除此之外，在对空间数据进行存储到MongoDB数据库的时候需要充分的借鉴
geojson格式的空间数据表达形式，将每个空间对象转化为一个 json 对象，并以 key/value的方式存储空间对象的空间属性及非空间属性。
海量数据处理机制
随着现代化档案文档的增加，需要处理的数据量也在逐渐的提高，因此需要对海量的数据作出快速处理，其中主要利用到了MapReduce模型来对其进行计算分割，对于数据需要分割并且发布到不同的计算群当中的来进行计算。在计算的过程当中，MongoDB 内置了 Map函数和 Reduce 函数对数据进行批处理和聚合操作。
3 MongoDB中的去重算法
在MongoDB数据库对档案文档的实际应用当中，主要是去重算法进行分析，在对档案文档的分析当中，需要根据文档档案的相关信息来生成一个userInfo

大数据下MongoDB数据库数据文档存储去重研究来自淘豆网www.taodocs.com转载请标明出处.