在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据面试题 Spark运行架构

发布时间：2019-09-05 15:19:35 浏览 6683 来源：博学谷资讯作者：照照

Spark作为一种分布式的计算框架，类似于大数据开发中Hadoop生态圈的MapReduce，计算思想和MR非常相似，两者都是分而治之的思想，但使用率要比MR高很多。本文整理了关于Spark运行架构的大数据面试题，内容包括Spark运行的基本流程、架构特点、优势。

Spark运行架构

1、Spark 运行基本流程：

（1）构建 Spark Application 的运行环境（启动 SparkContext），SparkContext 向资源管理器（可以是 Standalone、Mesos 或 YARN）注册并申请运行 Executor 资源；

（2）资源管理器分配 Executor 资源并启动 Executor，Executor 运行情况将随着心跳发送到资源管理器上；

（3）SparkContext 构建成 DAG 图，将 DAG 图分解成 Stage，并把 Taskset发送给 Task Scheduler。Executor 向 SparkContext 申请 Task，Task Scheduler 将Task 发放给 Executor 运行同时 SparkContext 将应用程序代码发放给 Executor。

（4）Task 在 Executor 上运行，运行完毕释放所有资源。

2、Spark 运行架构特点：

（1）每个 Application 获取专属的 executor 进程，该进程在 Application 期间一直驻留，并以多线程方式运行 tasks。

（2)Spark 任务与资源管理器无关，只要能够获取 executor 进程，并能保持相互通信就可以了。

（3）提交 SparkContext 的 Client 应该靠近 Worker 节点（运行 Executor 的节点)，最好是在同一个 Rack 里，因为 Spark 程序运行过程中 SparkContext 和Executor 之间有大量的信息交换；如果想在远程集群中运行，最好使用 RPC 将SparkContext 提交给集群，不要远离 Worker 运行 SparkContext。

（4）Task 采用了数据本地性和推测执行的优化机制。

3、Spark的优势：

（1）计算效率高

资源复用；粗粒度的资源调度。

（2）使用方便

支持使用多门语言来编写；提供了超过80多种方法来供我们使用。

（3）通用性强

Spark生态圈中的组件都是基于SparkCore封装起来的。

（4）适应性强

可以接受上百种数据源；可以运行在各种各样的资源调度框架上。

以上就是大数据面试题，所有关于Spark运行架构的内容，不知道对大家梳理Spark运行架构的知识点，有没有帮助？

大数据面试专业技能

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：云计算大数据培训哪家好？课程都学什么？下一篇：博学谷云计算大数据培训班课程怎么样？

相关推荐 更多

5分钟掌握Hadoop环境搭建流程

Hadoop是大数据技术的基础，它在大数据技术体系中的地位是非常重要的。目前Hadoop是主流的分布式系统基础架构之一，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。所以对于Hadoop基础知识的掌握的扎实程度，会决定你在大数据技术道路上走多远。首先我们来学习一下Hadoop环境搭建流程吧。

7631

2019-08-14 10:19:35

大数据开发大数据技术专业技能
大数据面试题 Hadoop的联邦机制

大数据学习需要掌握很多技术知识点，包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。今天主要和大家分享一下Hadoop的联邦机制。

10378

2019-07-18 23:40:42

大数据开发大数据面试
大数据面试题 Spark知识点汇总

Spark是一个实现快速通用的集群计算平台，它是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。在大数据库架构中常常需要使用Spark，Spark的知识点一直也是大数据面试题的重点，本文整理了Spark知识点汇总，现在就和大家一起梳理下吧！

7837

2019-07-25 15:33:51

大数据技术大数据面试
大数据疑难解答 Hbase内部是什么机制？

众所周知，HBase是一个非关系型数据库，它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中，还是大数据的工作中，这都是一个经常会出现的难题，然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。

7127

2019-10-17 18:13:28

大数据技术大数据面试专业技能
程序员必须掌握的大数据分析核心技术有哪些？

程序员必须掌握的大数据分析核心技术有哪些？大数据分析技术现是一种传统的技术分析模型，主要对数据进行筛选、过滤之后进行分析。随着银行业、保险业，电子商务的不断发展，非结构数据的数量越来越多，增加了大数据分析的难度，对于大数据方面的程序员要求越来越高。

6207

2020-03-05 15:19:17

大数据技术大数据开发专业技能