下载此文档

基于Spark的机器学习资料0、Spark运行架构介绍及原理之job,stage,task-3页.pdf


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
Spark 运行模式
一、 Spark 运行架构介绍
术语定义:
Application :指的是用户编写的 Spark 应用程序, 包含了一个 Driver 功能的代码和分布在集群中多节点上运行的
Executor 代码。
Driver :Spark 中的 Driver 就是运行 Application 的 main()函数,并且创建 SparkContext。SparkContext 为 Spark 准
备运行环境,它负责和 ClusterManager 通信,进行资源的申请、任务的分配和监控,当 Executor 部分运行完毕
后,负责将 SparkContext 关闭。
Worker :集群中运行 Application 代码的节点。
Executor: Application 运行在 Worker 节点上的一个进程,该进程负责运行 Task。
Cluster Manager :在集群上获取资源的外部服务。
作业( Job):包含多个 Task组成的并行计算, job 包括多个 RDD 以及作用于 RDD 上的各种操作。
阶段( Stage):每个 Job 会被拆分成很多组 Task,每组任务被称为 Stage。
任务( Task):被送到某个 Executor 上的工作任务。
Spark 运行基本流程图
1、 构建 Spark Application 的运行环境, 启动 SparkContext,SparkContext 向资源管理器注册并且申请运行 Executor
资源;
2、 资源管理器分配 Executor 资源并启动 ExecutorBackend, Executor 运行情况将随着心跳发送到资源管理器;
3、 SparkContext 构建 DAG图,将 DAG图分解成 Stage,并把 TaskSet发送给 Task Scheduler。Executor向 SparkContext
申请 Task,Task Scheduler将 Task发放给 Executor 运行同时将 SparkContext 将应用程序代码发放给 Executor;
4、 Task在 Executor 上运行,运行完毕释放所有资源;
DAGScheduler
DAGSchuduler 把一个 Spark

基于Spark的机器学习资料0、Spark运行架构介绍及原理之job,stage,task-3页 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息