下载此文档

spark入门及实践.pptx

文档分类：IT计算机 | 页数：约72页举报非法文档有奖

1/72

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/72 下载此文档

文档列表 文档介绍

之Spark
胡楠
http://blog./u013468917
南京邮电大学计算机学院
云计算技术和大数据
纲要
Spark综述
1
核心技术
2
Spark架构
3
BDAS简介
4
函数式编程简介
7
Spark应用实例
6
Spark安装部署
5
一、Spark综述
Spark是什么
1
Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。
Spark于2009年诞生于加州大学伯克利分校AMPLab。并且于2010年开源。2013年6月Spark进入Apache孵化器。目前,已经成为Apache软件基金会旗下的顶级开源项目。
/
Matai zaharia
一、Spark综述
Spark与Hadoop
2
Spark相比HadoopMapRedue的优势如下:
1、中间结果输出
基于MapReduce的计算模型会将中间结果序列化到磁盘上。而Spark将执行模型抽象为通用的有向无环图执行计划。且可以将中间结果缓存内存中。
2、数据格式和内存布局
Spark抽象出分布式内存存储结构RDD,进行数据存储。Spark能够控制数据在不同节点上的分区,用户可以自定义分区策略。
一、Spark综述
Spark与Hadoop
3
3、执行策略
MapReduce在数据shuffle之前总是花费大量时间来排序。Spark支持基于Hash的分布式聚合,在需要的时候再进行实际排序。
4、任务调度的开销
MapReduce上的不同作业在同一个节点运行时,会各自启动一个JVM。而Spark同一节点的所有任务都可以在一个JVM上运行。
一、Spark综述
Spark发展现状
3
Spark生态随着BDAS的完善,已经成型。
Spark全面兼容Hadoop的数据持久层。从而让把计算任务从原来的MapReduce计算任务迁移到Spark中更加简单。
目前Spark的工业应用在国内已经大范围落地。包括BAT在内的一众互联网公司都建立了自己的Spark集群
二、Spark关键技术
RDD的全称是弹性分布式数据集(resilient distributed dataset)是Spark的核心数据模型,RDD是Spark中待处理的数据的抽象,它是逻辑中的实体。
对于使用者来说,你得到的数据操作接口就是RDD,在对RDD进行处理的时候不需要考虑底层的分布式集群,就像在单机上一样即可,这也正是Spark的优势之一。
什么是RDD
1
二、Spark关键技术
从Hadoop文件系统输入(比如HDFS)创建。
从父RDD转换得到新的RDD。
将数组或者集合这样的数据结构并行化,转化成RDD。
通过cache()函数将计算后的RDD缓存到内存中。
RDD创建方式
2
二、Spark关键技术
从逻辑上来看,RDD就是数据。而实际上,从物理上来看,RDD是一种分布式内存的抽象。Spark中的数据实际上是像HDFS那样分块存储
RDD存储结构
3

spark入门及实践来自淘豆网www.taodocs.com转载请标明出处.