在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。本文主要内容有Spark运行架构的流程讲解和Spark运行架构的特点分析,感兴趣的小伙伴就赶紧看下去吧!
1、Spark 运行基本流程:
(1)构建 Spark Application 的运行环境(启动 SparkContext),SparkContext 向资源管理器(可以是 Standalone、Mesos 或 YARN)注册并申请运行 Executor 资源。
(2)资源管理器分配 Executor 资源并启动 Executor,Executor 运行情况将随着心跳发送到资源管理器上。
(3)SparkContext 构建成 DAG 图,将 DAG 图分解成 Stage,并把 Taskset发送给 Task Scheduler。Executor 向 SparkContext 申请 Task,Task Scheduler 将Task 发放给 Executor 运行同时 SparkContext 将应用程序代码发放给 Executor。
(4)Task 在 Executor 上运行,运行完毕释放所有资源。
2、Spark 运行架构的特点:
(1)每个 Application 获取专属的 executor 进程,该进程在 Application 期间一直驻留,并以多线程方式运行 tasks。
(2)Spark 任务与资源管理器无关,只要能够获取 executor 进程,并能保持相互通信就可以了。
(3)提交 SparkContext 的 Client 应该靠近 Worker 节点(运行 Executor 的节点),最好是在同一个 Rack 里,因为 Spark 程序运行过程中SparkContext 和Executor 之间有大量的信息交换;如果想在远程集群中运行,最好使用 RPC 将SparkContext 提交给集群,不要远离 Worker 运行 SparkContext。
(4)Task 采用了数据本地性和推测执行的优化机制。
以上就是Spark运行架构及其特点的讲解,大家都听明白了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
5分钟掌握Hadoop环境搭建流程
Hadoop是大数据技术的基础,它在大数据技术体系中的地位是非常重要的。目前Hadoop是主流的分布式系统基础架构之一,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。所以对于Hadoop基础知识的掌握的扎实程度,会决定你在大数据技术道路上走多远。首先我们来学习一下Hadoop环境搭建流程吧。
7737
2019-08-14 10:19:35
大数据培训班是骗局吗?大数据培训班到底坑不坑?
近些年,大数据的概念火热,就业前景广阔,相信很多人都因此想要学习大数据。但是由于自学效率低不适合大部分人,所以很多人考虑到参加大数据培训班。但是想要参加大数据培训班的同学不免担心,大数据培训班是骗局吗?其实问题答案很简单,大数据培训班当然不是骗局,大数据培训班到底坑不坑?那就要看你怎么选择培训机构了。
40353
2019-08-08 17:27:28
大数据Hbase面试题汇总
在大数据中,我们总会碰到Hbase数据库。尤其对于即将要面试大数据的小伙伴来说,Hbase数据库更是绕不过去的一个重要考点,因此小编汇总了近些年来比较常见且经典的大数据Hbase面试题,希望可以帮到大家。
8587
2019-08-20 18:49:37
数据库原理知识点全面讲解
掌握数据库已经成为了每个程序员的必备基本技能,今天我们就来带大家彻彻底底弄数据库原理的相关知识点,内容包括了事务、并发一致性、封锁、隔离级别、多版本并发控制和Next-Key Lock。希望本文全面的讲解可以一次性解决大家关于数据库原理的所有疑问。
7063
2020-04-29 11:10:35
大数据在线学习零基础教程有哪些?
数据开发日新月异,目前国内的数据产业链逐步形成,而大数据也成为了市场上最热门的求职领域之一。高薪且无限的发展前景吸引着许多人想要进入大数据这个行业,但是对于许多零基础的初学者来讲,往往遇到的首要问题,就是没有适合自己学习资源。为了帮助广大的大数据初学者能够轻松入门大数据,下面为大家推荐一些优质的大数据在线学习零基础教程。
5286
2020-05-15 15:24:46