下载此文档

Spark开发实例(编程实践).docx


文档分类:IT计算机 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
Spark开发实例(编程实践)
本节将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写、编译、打包和运行 Spark 应用程序。
启动 Spark Shell
Spark 的交互式脚本是一种学****API 的简单途径,也是分析数据集交互的有力工具。Spark 包含多种运行模式,可使用单机模式,也可以使用分布式模式。为简单起见,本节采用单机模式运行 Spark。
无论采用哪种模式,只要启动完成后,就初始化了一个 SparkContext 对象(SC),同时也创建了一个 SparkSQL 对象用于 SparkSQL 操作。进入 Scala 的交互界面中,就可以进行 RDD 的转换和行动操作。
进入目录 SPARK_HOME/bin 下,执行如下命令启动 Spark Shell。
$./spark-shell
Spark Shell 使用
假定本地文件系统中,文件 home/hadoop/SparkData/WordCount/text1 的内容如下。
hello world
hello My name is john I love Hadoop programming
下面我们基于该文件进行 Spark Shell 操作。
1)利用本地文件系统的一个文本文件创建一个新 RDD。
scala>var textFile = ("file://home/Hadoop/SparkData/WordCount/text1");
textFile:[String] = MappedRDD[1] at textFile at
:12
2)执行动作操作,计算文档中有多少行。
scala>() //RDD中有多少行
17/05/17 22:59:07 INFO :Job finished:count at:15, took s
resl:Long = 2
返回结果表明文档中有“2”行。
3)执行动作操作,获取文档中的第一行内容。
scala>() // RDD 第一行的内容
17/05/17 23:01:25 INFO :Job finished:first at :15,took
返回结果表明文档的第一行内容是“hello world”。
4)转换操作会将一个 RDD 转换成一个新的 RDD。获取包含“hello”的行的代码如下。
scala>var newRDD = (line => ("hello")) //有多少行含有 hello
scala>() // 有多少行含 hello
17/05/17 23:06:33 INFO :Job finished:count at :15,took s
res4:Long = 2
这段代码首先通过转换操作 filter 形成一个只包括含有“hello”的行的 RDD,

Spark开发实例(编程实践) 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人simple
  • 文件大小39 KB
  • 时间2021-07-11