众所周知,Spark作为一个集群计算平台和内存计算系统,它是专门为速度和通用目标设计的。从事大数据岗位的工作者,像是ETL工程师、Spark工程师、Hbase工程师、用户画像系统工程师都需要熟练掌握Spark相关知识点,因此Spark也是常常会出现的必考面试题。下面我整理了一些Spark面试题,并附上了答案,一起来看看做一做吧!
面试题1:Spark 运行架构的特点是什么?
答案:每个 Application 获取专属的 executor 进程,该进程在 Application 期间一直驻留,并以多线程方式运行 tasks。Spark 任务与资源管理器无关,只要能够获取 executor 进程,并能保持相互通信就可以了。提交 SparkContext 的 Client 应该靠近 Worker 节点(运行 Executor 的节点),最好是在同一个 Rack 里,因为 Spark 程序运行过程中 SparkContext 和Executor 之间有大量的信息交换;如果想在远程集群中运行,最好使用 RPC 将SparkContext 提交给集群,不要远离 Worker 运行 SparkContext。Task 采用了数据本地性和推测执行的优化机制。
面试题2:描述一下Spark运行的基本流程。
答案:这个是面试大数据岗位的一道基础题。Spark 运行基本流程可以参考下面的示意图:
面试题3:Spark 中的 RDD 是什么?
答案:RDD(Resilient Distributed Dataset)叫做分布式数据集,是 Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD 中的数据可以存储在内存或者是磁盘,而且RDD 中的分区是可以改变的。
面试题4:Spark 中的常用算子有哪些区别?
答案:map : 用 于 遍 历 RDD , 将 函 数 f 应 用 于 每 一 个 元 素 , 返 回 新 的
RDD(transformation 算子);foreach:用于遍历 RDD,将函数 f 应用于每一个元素,无返回值(action 算子);mapPartitions:用于遍历操作 RDD 中的每一个分区,返回生成一个新的RDD(transformation 算子);foreachPartition: 用于遍历操作 RDD 中的每一个分区。无返回值(action 算子)。总结的来说,一般使用 mapPartitions 或者 foreachPartition 算子比 map 和 foreach更加高效,推荐使用。
面试题5:spark 中 cache 和 persist 有什么区别?
答案:cache:缓存数据,默认是缓存在内存中,其本质还是调用 persist;persist:缓存数据,有丰富的数据缓存策略。数据可以保存在内存也可以保存在磁盘中,使用的时候指定对应的缓存级别就可以了。
面试题6:如何解决 spark 中的数据倾斜问题?
答案:这也是在大数据岗位上会常常遇到的问题,当我们发现数据倾斜的时候,不要急于提高 executor 的资源,修改参数或是修改程序,首先要检查数据本身,是否存在异常数据。如果是数据问题造成的数据倾斜,找出异常的 key,如果任务长时间卡在最后最后 1 个(几个)任务,首先要对 key 进行抽样分析,判断是哪些 key 造成的。选取 key,对数据进行抽样,统计出现的次数,根据出现次数大小排序取出前几个。
面试题7:谈谈 你对spark中宽窄依赖的认识。
答案:RDD 和它依赖的父 RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。宽依赖指的是多个子 RDD 的 Partition 会依赖同一个父 RDD 的 Partition窄依赖:指的是每一个父 RDD 的 Partition 最多被子 RDD 的一个 Partition使用。
以上就是大数据岗位中常见的Spark面试题整理,大家可以根据附上的答案对Spark的相关知识点进行查漏补缺。如果想要了解更多的大数据面试题,可以上博学谷官网学习大数据的就业班课程,除了面试题整理,课程还包括了各种就业指导内容,欢迎大家试听体验。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据开发工资一般多少?薪资待遇怎么样?
大数据开发工资一般多少?薪资待遇怎么样?北上广的大城市普遍薪资较高,北京数据挖掘工程师工资平均为15k/月左右,大数据开发薪资待遇从近几年研究生的就业情况来看,大数据行业从业者的薪资待遇还是比较高的,而且上升趋势也比较明显。
9580
2019-05-06 17:14:00
大数据分析员证书有用吗?对职业发展有好处吗?
大数据分析员证书有用吗?对职业发展有好处吗?大数据分析员证书双证书权威性,只有通过严苛的考核并合格后,才能拿到行业协会颁发的数据分析师证书,取得从业资质,获得证书是对自身能力的一个有力证明。
6956
2019-09-03 10:38:24
大数据疑难解答 Hbase内部是什么机制?
众所周知,HBase是一个非关系型数据库,它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中,还是大数据的工作中,这都是一个经常会出现的难题,然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。
4125
2019-10-17 18:13:28
大数据有哪些工作岗位?都需要掌握哪些技能?
随着大数据时代的来临,大数据的应用已经深入我们生活的方方面面。现在,各行各业对大数据人才的需求都是空前巨大的。那么,大数据有哪些工作岗位?都需要掌握哪些技能呢?目前,大数据工程师工作领域大致可分为五类:离线相关工作岗位、Storm实时计算工作岗位、Spark内存计算工作岗位、Flink 实时计算工作岗位和机器学习相关岗位。下面我们来看看从事以上岗位要学习掌握的技能。
4445
2020-03-12 12:42:17
学习大数据可以进入哪些公司?
进入数据时代以来,大数据人才一直处于紧缺的状态,然而对于刚刚接触大数据的同学对整个大数据市场仍然有很多不明白的地方。例如大数据到底能做什么?为什么大数据成为互联网中热门的技术?学习大数据需要掌握哪些重点知识?完成学习后能进入哪些公司就业?等等,在网上可以看到非常多诸如此类的问题。本片文章中博学谷的老师就和大家一起聊聊学习大数据可以进入哪些公司!
3108
2020-09-15 17:38:46
热门文章
- 人工智能如何入门学习?前景如何
- 未来互联网人才还稀缺吗?哪些技术方向热门?
- 智能汽车用到哪些技术?
- 产品可行性分析需要考虑几个方面?
- 日常工作中程序员最讨厌哪些工作事项?
- 博学谷狂野大数据学习多长时间?
- IT互联网程序员的涨薪秘籍是什么?
- Java多线程遇到死锁三招彻底解决
- Python 开发人员经常遇哪些挑战?如何解决?
- 狂野架构师课程如何?能学到什么? 查看更多
扫描二维码,了解更多信息
