在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。本文主要内容有Spark运行架构的流程讲解和Spark运行架构的特点分析,感兴趣的小伙伴就赶紧看下去吧!

1、Spark 运行基本流程:
(1)构建 Spark Application 的运行环境(启动 SparkContext),SparkContext 向资源管理器(可以是 Standalone、Mesos 或 YARN)注册并申请运行 Executor 资源。
(2)资源管理器分配 Executor 资源并启动 Executor,Executor 运行情况将随着心跳发送到资源管理器上。
(3)SparkContext 构建成 DAG 图,将 DAG 图分解成 Stage,并把 Taskset发送给 Task Scheduler。Executor 向 SparkContext 申请 Task,Task Scheduler 将Task 发放给 Executor 运行同时 SparkContext 将应用程序代码发放给 Executor。
(4)Task 在 Executor 上运行,运行完毕释放所有资源。
2、Spark 运行架构的特点:
(1)每个 Application 获取专属的 executor 进程,该进程在 Application 期间一直驻留,并以多线程方式运行 tasks。
(2)Spark 任务与资源管理器无关,只要能够获取 executor 进程,并能保持相互通信就可以了。
(3)提交 SparkContext 的 Client 应该靠近 Worker 节点(运行 Executor 的节点),最好是在同一个 Rack 里,因为 Spark 程序运行过程中SparkContext 和Executor 之间有大量的信息交换;如果想在远程集群中运行,最好使用 RPC 将SparkContext 提交给集群,不要远离 Worker 运行 SparkContext。
(4)Task 采用了数据本地性和推测执行的优化机制。
以上就是Spark运行架构及其特点的讲解,大家都听明白了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据与人工智能对保险行业的风险控制与挑战
大数据与人工智能对保险行业的风险控制与挑战,万物互联、大数据与人工智能是改变根本的技术革命。它在很大程度上解决了困扰人类几千年的信息不充分、不对称的问题,极大地提高了人类整合资源、协调行动、科学决策的能力,必将引发一场空前的社会大变革。
11146
2019-04-11 14:11:31
大数据分析热门技术解析
哪些大数据技术是目前市场最急需的?未来市场哪些技术有更大的发展空间?由于大数据技术以及人工智能技术的普及以及应用,求学者更加理性的对未来大数据应用技术进行分析。根据弗雷斯特研究公司发布的指数,今天和大家分享一下目前大数据分析领域比较热门的十个技术。
8679
2019-06-10 17:58:09
做大数据开发累吗?需不需要加班?
做大数据开发累吗?需不需要加班?首先我们来了解大数据的工作内容,用一句话总结就是分析历史、预测未来、优化选择。总体上看来,大数据开发的工作需要按部就班进行,因此一般不需要加班,但是偶尔也会因为额外的需求增加以及对项目进度的把控而需要加班。不过,就与其它的研发技术岗位比较,大数据开发已经算是比较轻松的工作了。
18879
2019-09-16 10:10:54
大数据从零开始入门自学书籍推荐
如今,有数据的地方就有大数据,大数据的火爆也造就了大数据人才在就业市场上的抢手。随着未来大数据的进一步发展,大数据的人才空缺会越来越大。正因如此,许多人都想在大数据时代的浪口,掌握这门安身立命的本领和技能。对于那些从零开始入门自学大数据的朋友,本文将推荐几本适合小白学习的书籍,希望对大家有所帮助。
7250
2019-12-27 17:08:42
大数据岗位基础要求有哪些?
大数据岗位基础要求:谈起大数据,当然少不了分析软件,这应该是做大数据工作的基础,但市场上有很多各种各样的分析软件,如果没有过人的经验,真的很难找到适合自己或者适合企业的。笔者通过各大企业对大数据相关行业的职位要求,归纳出如下要点:
6799
2020-07-06 14:22:39
