下载此文档

最新spark面试题Miles资料.docx

文档分类：通信/电子 | 页数：约6页举报非法文档有奖

1/6

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/6 下载此文档

文档列表 文档介绍

精品资料，欢迎大家下载！
以上资料仅供参考，如有侵权，留言删除！
13、hadoop和spark的都是并行计算,那么他们有什么相同和区别？
两者都是用mr模型来进行并行计算,hadoop的一个作业称为了job , job里面分为了m同,但是在 scala中,操作符是方法,在java中操作符不是方法,且在scala中,除了字母数字之外的其他特别字符也可以作为了方法
scala中的通配符是_, java中的通配符是*
scala 中的 unit 相当于 java 中的 void
scala中的if/else 的表达式与java中的差不多,但是 scala中有值
scala中没有static ,但是可以用object来到达java中相同的效果,scala 中的object可以实现单例对象
.RD D的数据结构是怎么样的？
RDD勺全称：弹性分布式数据集合,它是 spark的根本数据结构,spark中的所有数据都是通过RDD勺形式进行组织.
RD跳不可变的数据集合,不可变的意思是 RDLfr的每个分区数据是只读的.
RD或据集是要做逻辑分区的(这里的分区类似 hadoop中的逻辑切片split ),
每个分区可以单独在集群节点进行计算.
RDEM据集中的数据类型可以包含任何 java类型、scala类型、python类型或者自定义的类型.
RDD亶长的领域：迭代式的数据处理,比方机器学****br/>分区歹U表,Partition List .这里的分区概念类似 hadoop中的split 切片概
念,即数据的逻辑切片
精品资料，欢迎大家下载！
以上资料仅供参考，如有侵权，留言删除！
针对每个split(切片)的计算函数,即同一个 RDD 的每个切片的数据使用相同的计算函数
对其他rdd的依赖列表
可选,如果是(Key, Value)型的RDD可以带分区类
可选,首选块位置歹U表(hdfs block location);
简要描述Spark分布式集群搭建的步骤
下载Spark的发？行行版
解压缩？文件
设置环境变量量
cd spark--bin-
export SPARK_HOME='pwd'
export PATH=${SPARK_HOME}/bin:$PATH
本地运？行行Spark
运？行行 SparkPi
$SPARK_HOME/bin/run-example SparkPi
运？行行 spark-shell
$SPARK_HOME/bin/spark-shell
在提示符中开始运？行行Spark程序
集群模式运？行行Spark

cd $SPARK_HOME/conf
vim spark-
加？下如下内容
HADOOP_CONF_DIR=/home/bigdata/hadoop-(Hadoop 的安装?
见参考？文档
运？行行 SparkPi
export MASTER=yarn-client
$SPARK_HOME/bin/run-example SparkPi
export MASTER=yarn-cluster
$SPARK_HOME/bin/run-

最新spark面试题Miles资料来自淘豆网www.taodocs.com转载请标明出处.