下载此文档

基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理.pdf

文档分类：IT计算机 | 页数：约1页举报非法文档有奖

1/1

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/1 下载此文档

文档列表 文档介绍

该【基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理】是由【wawa】上传分享，文档一共【1】页，该文档可以免费在线阅读，需要了解更多关于【基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。Spark编程模型RDD设计以及运行原理
一、RDD介绍
RDD:弹性分布式数据集,是一个分区的只读记录的集合。也可以这样理解,是一个提供了许多操作接口的数据集
合。它还包括容错、数据集内的数据可以并行处理等。
二、RDD操作类型
RDD的操作类型分为两类,转换(transformations)和行动(action),转换是根据原有的RDD创建一个新的RDD,
行动是对RDD操作后把结果返回给driver。
RDD的所有转换操作都是lazy模式,即Spark不会立刻结算结果,而只是简单的记住所有对数据集的转换操作。
这些转换只有遇到action操作的时候才会开始计算。
三、RDD依赖关系
RDD提供了许多转换操作,每个转换操作都会生成新的RDD,这时候新的RDD便依赖于原有的RDD,这种RDD之
间的依赖关系最终形成DAG。
RDD之间的依赖关系分为两种,为窄依赖和宽依赖。
宽依赖:RDD的每个partition都依赖于父RDD的所有Partition。
窄依赖:只依赖一个或部分的Partition。
四、RDDpartitioner与并行度
每个RDD都有Partitioner属性,它决定了该RDD如何分区,当然Partition的个数还将决定每个Stage的Task个数。
当前Spark需要应用设置Stage的并行Task个数(配置项为:),在未设置的情况下,子RDD
会根据父RDD的Partition决定,如map操作下子RDD的Partition与父Partition完全一致,Union操作时子RDD
的Partition个数为父Partition个数之和。
,它会很大程度上决定Spark程序的性能。

基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理来自淘豆网www.taodocs.com转载请标明出处.

基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理.pdf

基于Spark的机器学习资料0、Spark运行架构介绍及原理之job,stage,task

基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理

基于Spark的机器学习资料0、Spark运行架构介绍及原理之job,stage,task-3页

基于Spark的机器学习资料31、Spark编程模型RDD设计以及运行原理-1页

Spark RDD是什么

Spark核心编程：Spark基本工作原理与RDD

Spark核心编程：RDD持久化详解

Spark核心编程RDD持久化详解

Spark核心编程Spark基本工作原理与RDD

spark编程模型