下载此文档

最新spark面试题Miles资料.docx


文档分类:通信/电子 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
精品资料,欢迎大家下载!
以上资料仅供参考,如有侵权,留言删除!
13、hadoop和spark的都是并行计算,那么他们有什么相同和区别?
两者都是用mr模型来进行并行计算,hadoop的一个作业称为了job , job里面分 为了m同,但是在 scala中,操 作符是方法,在java中操作符不是方法,且在scala中,除了字母数字之外的 其他特别字符也可以作为了方法
scala中的通配符是_, java中的通配符是*
scala 中的 unit 相当于 java 中的 void
scala中的if/else 的表达式与java中的差不多,但是 scala中有值
scala中没有static ,但是可以用object来到达java中相同的效果,scala 中的object可以实现单例对象
.RD D的数据结构是怎么样的?
RDD勺全称:弹性分布式数据集合,它是 spark的根本数据结构,spark中的所 有数据都是通过RDD勺形式进行组织.
RD跳不可变的数据集合,不可变的意思是 RDLfr的每个分区数据是只读的.
RD或据集是要做逻辑分区的(这里的分区类似 hadoop中的逻辑切片split ),
每个分区可以单独在集群节点进行计算.
RDEM据集中的数据类型可以包含任何 java类型、scala类型、python类型或 者自定义的类型.
RDD亶长的领域:迭代式的数据处理,比方机器学****br/>分区歹U表,Partition List .这里的分区概念类似 hadoop中的split 切片概
念,即数据的逻辑切片
精品资料,欢迎大家下载!
以上资料仅供参考,如有侵权,留言删除!
针对每个split(切片)的计算函数,即同一个 RDD 的每个切片的数据使用相同的计算函数
对其他rdd的依赖列表
可选,如果是(Key, Value)型的RDD可以带分 区类
可选,首选块位置歹U表(hdfs block location);
简要描述Spark分布式集群搭建的步骤
下载Spark的发?行行版
解压缩?文件
设置环境变量量
cd spark--bin-
export SPARK_HOME='pwd'
export PATH=${SPARK_HOME}/bin:$PATH
本地运?行行Spark
运?行行 SparkPi
$SPARK_HOME/bin/run-example SparkPi
运?行行 spark-shell
$SPARK_HOME/bin/spark-shell
在提示符中开始运?行行Spark程序
集群模式运?行行Spark

cd $SPARK_HOME/conf
vim spark-
加?下如下内容
HADOOP_CONF_DIR=/home/bigdata/hadoop-(Hadoop 的安装?
见参考?文档
运?行行 SparkPi
export MASTER=yarn-client
$SPARK_HOME/bin/run-example SparkPi
export MASTER=yarn-cluster
$SPARK_HOME/bin/run-

最新spark面试题Miles资料 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人maritime_4
  • 文件大小21 KB
  • 时间2022-04-23