下载此文档

如何将 MapReduce 转化为 Spark.pdf

文档分类：IT计算机 | 页数：约11页举报非法文档有奖

1/11

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/11 下载此文档

文档列表 文档介绍

: .
如何将 MapReduce 转化为 Spark
本文首先对 MapReduce 和 Spark 的基本信息做了对比性介绍，接着分别对 MapReduce 和
Spark 进行基础性知识讲解，然后在单台 Linux 服务器上安装了 Spark，并以实际代码演示了从
MapReduce 转换代码到 Spark 时需要注意的事项。本文针对的是对 Spark 完全没有了解的用户，后
续文章会从实际应用出发，从安装、应用程序的角度给出更加实用的教程。
MapReduce VS Spark
目前的大数据处理可以分为以下三个类型：
（batch data processing），通常的时间跨度在数十分钟到数小时之间；
（interactive query），通常的时间跨度在数十秒到数分钟之间；
（streaming data processing），通常的时间跨度在数百毫秒到
数秒之间。
大数据处理势必需要依赖集群环境，而集群环境有三大挑战，分别是并行化、单点失败处理、资
源共享，分别可以采用以并行化的方式重写应用程序、对单点失败的处理方式、动态地进行计算资源
的分配等解决方案来面对挑战。
针对集群环境出现了大量的大数据编程框架，首先是 Google 的 MapReduce，它给我们展示了一
个简单通用和自动容错的批处理计算模型。但是对于其他类型的计算，比如交互式和流式计算，
MapReduce 并不适合。这也导致了大量的不同于 MapReduce 的专有的数据处理模型的出现，比如
Storm、Impala 等等。但是这些专有系统也存在一些不足：
重复工作：许多专有系统在解决同样的问题，比如分布式作业以及容错，举例来说，一个分布式
的 SQL 引擎或者一个机器学****系统都需要实现并行聚合，这些问题在每个专有系统中会重复地被解
决。
组合问题：在不同的系统之间进行组合计算是一件麻烦的事情。对于特定的大数据应用程序而言，
中间数据集是非常大的，而且移动的成本很高。在目前的环境下，我们需要将数据复制到稳定的存储
系统，比如 HDFS，以便在不同的计算引擎中进行分享。然而，这样的复制可能比真正的计算所花费
的代价要大，所以以流水线的形式将多个系统组合起来效率并不高。
适用范围的局限性：如果一个应用不适合一个专有的计算系统，那么使用者只能换一个系统，或
者重写一个新的计算系统。
资源分配：在不同的计算引擎之间进行资源的动态共享比较困难，因为大多数的计算引擎都会假设它
们在程序运行结束之前拥有相同的机器节点的资源。
管理问题：对于多个专有系统，需要花费更多的精力和

如何将 MapReduce 转化为 Spark 来自淘豆网www.taodocs.com转载请标明出处.