下载此文档

大数据平台技术—实验3(2019-2020).doc


文档分类:IT计算机 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
重庆交通大学信息科学与工程学院
实验报告
班 级: 曙光1701班
姓名 学号: 和程序运行结果进行详细描述。
(1)从Linux本地磁盘或者HDFS文件系统中,读取任意一个包含了若干英文单词的文本文件,并将其载入为RDD对象,调用适宜的Spark Transformation和Action算子,完成WordCount程序,并显示运行结果;
(2)初始化List对象input_data = [3, 4, 5, 7, 9, 12],调用适宜的Spark Transformation算子,过滤掉其中小于5的元素,然后对过滤后的数据生成形式为(x, x)的元组,并调用适宜的Action算子将结果输出到Linux本地或HDFS文件系统中;
(3)初始化一个RDD对象,并赋值为range(1, 10)的集合,仅选择适宜的Action算子,完成集合中元素数据值的累加,并将结果print输出。
【实验过程】(步骤、记录、数据、程序等)
请提供相应代码或相应界面截图证明。
从Linux本地磁盘或者HDFS文件系统中,读取任意一个包含了若干英文单词的文本文件,并将其载入为RDD对象,调用适宜的Spark Transformation和Action算子,完成WordCount程序,并显示运行结果;
import findspark
()
import pyspark
from pyspark import SparkContext,SparkConf
conf =SparkConf().setAppName('spark rdd test')
sc = SparkContext(conf=conf)
text_file=("")
conuts=(lambda line:(" "))\
.map(lambda word:(word,1))\
.reduceByKey(lambda a,b:a+b)
("")
line=()
print(line)
- 8 -
初始化List对象input_data = [3, 4, 5, 7, 9, 12],调用适宜的Spark Transformation算子,过滤掉其中小于5的元素,然后对过滤后的数据生成形式为(x, x)的元组,并调用适宜的Action算子将结果输出到Linux本地或HDFS文件系统中;
input_data=[3,4,5,7,9,12]
distData=(input_data,numSlices=10)#numSlices为分块数目,根据集群数进行分块
()
#filter:过滤数据
def my_add(l):
result=False
if l>5:
result=True
return result
result1=(my_add)
print(())#返回一个分布数据集
#map:迭代,对数据集中数据进行单独操作
def my_add(l):
return (l,l)
result=(my_add)
print(())#返回一个分布数据
(3)初始化一个RDD对象,并赋值为range(1, 10)的集合,仅选择适宜的Action算子,完成集合中元素数据值的累加,并将结果print输出。
rdd=(range(1,10))
print(rdd)
print(())
rdd=(range(1,10))
result=(lambda a,b:a+b)
print(result)
- 9 -
第3题 Spark SQL程序设计实验
【实验内容】
结合课堂讲授内容,在基于Python语言的Spark SQL计算环境下,设计实现以下功能,并对代码和程序运行结果进行详细描述。
使用Python环境下的Spark SQL,读取Spark安装包自带的peopl

大数据平台技术—实验3(2019-2020) 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数14
  • 收藏数0 收藏
  • 顶次数0
  • 上传人慢慢老师
  • 文件大小1.38 MB
  • 时间2022-02-20