精品资料,欢迎大家下载!
以上资料仅供参考,如有侵权,留言删除!
13、hadoop和spark的都是并行计算,那么他们有什么相同和区别?
两者都是用mr模型来进行并行计算,hadoop的一个作业称为了job , job里面分 为了m同,但是在 scala中,操 作符是方法,在java中操作符不是方法,且在scala中,除了字母数字之外的 其他特别字符也可以作为了方法
scala中的通配符是_, java中的通配符是*
scala 中的 unit 相当于 java 中的 void
scala中的if/else 的表达式与java中的差不多,但是 scala中有值
scala中没有static ,但是可以用object来到达java中相同的效果,scala 中的object可以实现单例对象
.RD D的数据结构是怎么样的?
RDD勺全称:弹性分布式数据集合,它是 spark的根本数据结构,spark中的所 有数据都是通过RDD勺形式进行组织.
RD跳不可变的数据集合,不可变的意思是 RDLfr的每个分区数据是只读的.
RD或据集是要做逻辑分区的(这里的分区类似 hadoop中的逻辑切片split ),
每个分区可以单独在集群节点进行计算.
RDEM据集中的数据类型可以包含任何 java类型、scala类型、python类型或 者自定义的类型.
RDD亶长的领域:迭代式的数据处理,比方机器学****br/>分区歹U表,Partition List .这里的分区概念类似 hadoop中的split 切片概
念,即数据的逻辑切片
精品资料,欢迎大家下载!
以上资料仅供参考,如有侵权,留言删除!
针对每个split(切片)的计算函数,即同一个 RDD 的每个切片的数据使用相同的计算函数
对其他rdd的依赖列表
可选,如果是(Key, Value)型的RDD可以带分 区类
可选,首选块位置歹U表(hdfs block location);
简要描述Spark分布式集群搭建的步骤
下载Spark的发?行行版
解压缩?文件
设置环境变量量
cd spark--bin-
export SPARK_HOME='pwd'
export PATH=${SPARK_HOME}/bin:$PATH
本地运?行行Spark
运?行行 SparkPi
$SPARK_HOME/bin/run-example SparkPi
运?行行 spark-shell
$SPARK_HOME/bin/spark-shell
在提示符中开始运?行行Spark程序
集群模式运?行行Spark
cd $SPARK_HOME/conf
vim spark-
加?下如下内容
HADOOP_CONF_DIR=/home/bigdata/hadoop-(Hadoop 的安装?
见参考?文档
运?行行 SparkPi
export MASTER=yarn-client
$SPARK_HOME/bin/run-example SparkPi
export MASTER=yarn-cluster
$SPARK_HOME/bin/run-
最新spark面试题Miles资料 来自淘豆网www.taodocs.com转载请标明出处.