在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。本文主要内容有Spark运行架构的流程讲解和Spark运行架构的特点分析,感兴趣的小伙伴就赶紧看下去吧!

1、Spark 运行基本流程:
(1)构建 Spark Application 的运行环境(启动 SparkContext),SparkContext 向资源管理器(可以是 Standalone、Mesos 或 YARN)注册并申请运行 Executor 资源。
(2)资源管理器分配 Executor 资源并启动 Executor,Executor 运行情况将随着心跳发送到资源管理器上。
(3)SparkContext 构建成 DAG 图,将 DAG 图分解成 Stage,并把 Taskset发送给 Task Scheduler。Executor 向 SparkContext 申请 Task,Task Scheduler 将Task 发放给 Executor 运行同时 SparkContext 将应用程序代码发放给 Executor。
(4)Task 在 Executor 上运行,运行完毕释放所有资源。
2、Spark 运行架构的特点:
(1)每个 Application 获取专属的 executor 进程,该进程在 Application 期间一直驻留,并以多线程方式运行 tasks。
(2)Spark 任务与资源管理器无关,只要能够获取 executor 进程,并能保持相互通信就可以了。
(3)提交 SparkContext 的 Client 应该靠近 Worker 节点(运行 Executor 的节点),最好是在同一个 Rack 里,因为 Spark 程序运行过程中SparkContext 和Executor 之间有大量的信息交换;如果想在远程集群中运行,最好使用 RPC 将SparkContext 提交给集群,不要远离 Worker 运行 SparkContext。
(4)Task 采用了数据本地性和推测执行的优化机制。
以上就是Spark运行架构及其特点的讲解,大家都听明白了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
为什么大数据和云计算备受关注,大数据与云计算的关系
互联网技术不断突破与革新,大数据和云计算的概念现在已经成为互联网的热门词汇。为什么大数据和云计算这样备受关注呢?他们之间有什么关系?相信很多小伙伴也存在这样的疑问。
8355
2019-06-12 17:36:02
spark中的RDD是什么?RDD有哪些特性?
随着移动互联网的发展,云计算大数据开发求职者越来越多。今天小编为大家整理了关于spark的经典面试题:spark中的RDD是什么?RDD有哪些特性?并且编写了较为详细的答案说明,希望能帮助大家解答这方面的疑惑。
11445
2019-07-02 14:04:50
大数据培训班跟不上怎么办?零基础可以学大数据吗?
在大数据浪潮的裹挟下,不断有学习者涌入大数据培训机构,因而这些学习者的能力也是参差不齐的。这样一来,不少初学者会有这样的疑问:大数据培训班跟不上怎么办?零基础可以学大数据吗?其实大数据的学习只要肯用心,不存在什么学习的门槛。如果零基础的同学跟不上学习进度,自身和培训班都有问题。下面来看看如何解决吧!
6868
2019-09-11 12:49:47
大数据学习的基础知识
大数据学习的基础知识,随着互联网科技的发展,新型技术行业如人工智能等高科技领域人才需求不断扩大。其中大数据行业的发展前景也是相当好。导致很多人跟风报名,结果就是好多人哭喊大数据好难学。但是,大数据真的这么难吗?大数据基础学习内容是什么?大家不妨先了解一下再决定要不要继续学习。
4547
2020-06-12 15:58:59
大数据开发工程师招聘要求高吗?
大数据开发工程师该岗位对于技术要求较高,有一定的技术门槛。大数据工程师不少细分方向,不同的方向需要具备不同的知识结构,分别是大数据底层平台研发、大数据应用开发、大数据分析和大数据运维。
6957
2020-12-15 16:16:44
