下载此文档

基于SharkSpark的分布式空间数据分析框架.pdf


文档分类:IT计算机 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
基于 Shark/Spark 的分布式空间数据分析框架温馨 1 , 2 , 罗侃 1 , 2 , 陈荣国 1 ,* ( 1 . 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室, 北京 100101 ; 2 . 中国科学院大学, 北京 100049 ) 摘要:随着空间数据的与日俱增,传统依托于单节点的空间数据管理方法,已难以满足海量数据高并发的需求。云计算的兴起带来机遇与挑战,分布式技术与数据库技术的优势互补,为云计算下高效的数据管理提供了可能。本文提出一种在分布式计算引擎( Shark/Spark )中集合之关键技术(包括空间数据映射、空间数据加载、数据备份及空间查询等),将空间数据库对空间数据的高效存储、索引及查询优势与分布式计算引擎对复杂计算的优势相结合, 实现一种基于 Shark/Spark 的分布式空间数据分析框架。在具体实现中,通过空间自定义函数和空间函数下推 2 种方式实现空间查询,结果表明,影响返回结果数据量的空间查询更适合下推给空间数据库完成,而不影响返回结果数据量的空间查询,利用分布式计算引擎直接运算更有优势。同时,通过与现有的一种分布式 GIS 方案( ArcGIS on Hadoop ) 对比发现, 空间数据库的空间索引可有效提高查询效率, 空间数据管理也更加独立。关键词: Shark ; Spark ; Hadoop ; 空间数据库; 空间查询 D O I : 10 . 3724 /. 1047 . 2015 . 00401 1 引言空间技术及存储技术的发展,推动着空间数据爆炸式增长,海量空间数据的管理成为了地理信息系统(Geographic Information System , GIS )研究的热点[ 1 - 3 ] 。传统的空间数据管理依托于单节点关系型数据库,其在海量数据管理、高并发读写和扩展性等方面存在局限性。云计算的兴起为空间数据管理带来了机遇与挑战,将云计算技术与空间数据库技术结合,实现对海量空间数据的检索查询, 逐渐成为空间信息技术的新兴研究领域[ 4 - 5 ] 。本文以空间数据库实现空间数据存储,对空间数据进行高效的一体化管理,集合分布式计算引擎进行空间运算,形成一种结合二者优势的分布式空间数据分析框架。关于分布式技术与关系型数据库的结合已有一些讨论与尝试[ 6 - 7 ] 。 HadoopDB [ 8 ] (现已改名为 Hadpt ) 采用 MapReduce 作为多个数据库管理系统( Data - base Management System , DBMS )节点之间的连接层,通过转换 HadoopDB 中接收的 SQL 语句,将其推入到数据层处理。某些情况下,其可同时实现关系数据库的高性能特性和 MapReduce 的扩展性、容错性[ 9 ] 。MongoDB (https:///mongodb/mongo- hadoop )通过 MongoDB Connector 实现 Hadoop 与 MongoDB 的数据交换,提高了读取运算大数据的效率。在此基础之上,结合 Spark API , Nis kanen (/ 2014 /02 /18/using-spark-with-mon - godb/ )实现 MongoDB 与 Spark 的结合。在分布式技术与 GIS 结合中,

基于SharkSpark的分布式空间数据分析框架 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人gd433
  • 文件大小0 KB
  • 时间2016-05-11