下载此文档

大数据下MongoDB数据库数据文档存储去重研究.docx


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
大数据下MongoDB数据库数据文档存储去重研究
 
 
李兴武
摘要:随着现代科技的逐渐发展,我国对于档案存储的研究也得到了社会各界的广泛重视,因此需要利用对存储档案文档管理进行重复的去重操作。
关键词:大数据;MongoDB数据库;档案文档存储;去重研究
:TP311 :A :1007-9416(2017)09-0099-01
1 传统的档案存储
在传统的档案存储的过程当中,主要是对文档来进行文件的形式进行存储,对于原本的数据需要根据实际情况来建立起档案文件和数据的链接,并把该链接的路径存储在关系数据库中。在此种方式下对文件进行存储的过程当中,会产生相当多的重复文件。[1]因此在其存储的过程当中为了避免出现重复的现象,都需要进行人工的方式来检查。在这种方式下,存储空间很快会被耗尽,要靠不断的增加存储设备来解决大量档案数据存放的问题,同时在管理方面也是相当不利的,在扩展性方面是相对较差的。在此种情况下,就需要利用
MongoDB数据库来存储这些非结构化的数据,并且在存放之前就完成对重复档案文档的去重操作。
2 MongoDB數据库存储和管理机制
多用户存储机制
在进行存储的过程当中,MongoDB数据库提供主从复制和副本集复制2种方式满足冗余备份与高可用性。一般来说都是需要主从复制的,可以在进行复制的过程的当中对数据做出有效的转移和优化。并且在对MongoDB数据库当中还可以实现自动切片功能,易于实现横向扩展。此项功能主要适用于在用户存储量相对较大的情况下,其中所产生的数据量和频繁的I/O操作也是相对较多的,因此可以采用自动切片与副本集复制相结合的方式,来实现对不同的数据集合进行分层存储,这样一来在每一个分片当中都会具备不同的多个副本,从而对数据库服务器端实现故障转移以及自动扩展的现象,[2]其流程图如图1所示。在客户对其中的数据进行读取的时候,可以调用路由进程,并从配置服务器中读取数据与片的对应关系等信息,实现对数据信息的有效读取。
矢量空间数据存储
在对数据进行存储的过程当中,需要对数据的格式进行掌握和了解,一般情况下,在传统的矢量型空间数据格式包括Shapefile、TAB、GML、GeoJSON等类型。因此在对其数据进行存储到MongoDB数据库的时候,需要在中间件来对矢量的数据文件进行读取,最后将其转化成为MongoDB数据库可以存储读取的数据。除此之外,在对空间数据进行存储到MongoDB数据库的时候需要充分的借鉴
geojson格式的空间数据表达形式,将每个空间对象转化为一个 json 对象,并以 key/value的方式存储空间对象的空间属性及非空间属性。
海量数据处理机制
随着现代化档案文档的增加,需要处理的数据量也在逐渐的提高,因此需要对海量的数据作出快速处理,其中主要利用到了MapReduce模型来对其进行计算分割,对于数据需要分割并且发布到不同的计算群当中的来进行计算。在计算的过程当中,MongoDB 内置了 Map函数和 Reduce 函数对数据进行批处理和聚合操作。
3 MongoDB中的去重算法
在MongoDB数据库对档案文档的实际应用当中,主要是去重算法进行分析,在对档案文档的分析当中,需要根据文档档案的相关信息来生成一个userInfo

大数据下MongoDB数据库数据文档存储去重研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人科技星球
  • 文件大小26 KB
  • 时间2022-01-04