随着移动互联网的发展,云计算大数据开发求职者越来越多。今天小编为大家整理了关于spark的经典面试题:spark中的RDD是什么?RDD有哪些特性?并且编写了较为详细的答案说明,希望能帮助大家解答这方面的疑惑。
RDD是什么
Spark是围绕弹性分布式数据集(RDD)的概念展开的,RDD是一种容错的可分布式操作的数据集合。有两中方式可以创建RDD:一种是将驱动程序中的已有集合平行化;另外一种是引用外部存储系统的数据集,例如共享文件系统,HDFS, HBase, 或者其他类似Hadoop的数据源。
RDD的特点之一是分布式存储,它的好处就是数据存储在不同的节点上,当需要数据进行计算的时候可以在这些节点上并行操作。弹性表现在节点在存储RDD数据的时候,既可以存储在内存中,也可以存储在磁盘上,也可以两者结合使用。RDD还有个特点就是延迟计算,当是transformation算子的时候,并不执行操作,直到遇到action算子的时候才开始执行计算。
RDD有哪些特性
1 、A list of partitions
——RDD是由多个partition构成的。
2、A function for computing each split
——RDD的每个分区上都有一个函数去作用
3、 A list of dependencies on other RDDs
——RDD有依赖性,通常情况下一个RDD是来源于另一个RDD,这个叫做lineage。RDD会记录下这些依赖,方便容错。
4、Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
——可选项,如果RDD里面存的数据是key-value形式,则可以传递一个自定义的Partitioner进行重新分区,例如这里自定义的Partitioner是基于key进行分区,那则会将不同RDD里面的相同key的数据放到同一个partition里面。
5、Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
——最优的位置去计算,也就是数据的本地性。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据是如何做到目标用户精准营销
大数据是如何做到目标用户精准营销?营销的核心是“人”,哪怕拥有大数据加持,也应以“人”为本。大数据一般取材于日常工作生活,通过分析、挖掘我们的日常行为产生的数据资源,以指导、影响日常工作生活决策,甚至影响整个行业的生存与发展。
6927
2019-04-10 00:08:24
线上大数据培训哪家好如何选择?
线上大数据培训哪家好应该如何选择?就线上培训这块,博学谷算是做的比较好的大数据培训平台。简单来讲,建议大家在做选择的时候,在口碑和知名度都不错的培训机构中挑选。同时多多考察大数据培训机构的课程质量、师资力量、教学模式等等方面,当然考察的方式不仅仅是听信培训机构的宣传,还要亲自体验课程,最好能和之前毕业的学员联系,深入了解培训的效果怎么样。
3052
2019-09-18 12:48:17
Pandas如何分块处理大文件?
在处理快手的用户数据时,碰到600M的txt文本,用sublime打开蹦了,用pandas.read_table()去读竟然花了小2分钟,打开有3千万行数据。仅仅是打开,要处理的话不知得多费劲。解决方法:读取文件的函数有两个参数:chunksize、iterator。原理分多次不一次性把文件数据读入内存中。
2946
2020-08-14 16:16:47
如何获取大数据行业高薪岗位offer?
想要拿到高薪就要成为站在金字塔的人,在互联网行业需要保持不断的学习。学习大数据先思考自身未来想往哪个方向发展,想要入门快、基础深厚,并且需求多应用广建议从JAVA开始学起,找到适合自己的学习方法。
1382
2021-03-31 16:13:39
累加器和广播变量分别在什么场景使用?
累加器和广播变量分别在什么场景使用?累加器分布式共享只写变量,如果在转换算子中调用累加器后续没有行动算子,累加器不会执行。后续如果调用了两次行动算子,会执行两次累加器出现多加的情况。
173
2022-04-19 15:57:48
热门文章
- 我做了10年程序员 最后Java架构师弯道超车
- JavaEE极速就业班课程怎么样?有哪些优势?
- 狂野大数据课程怎么样?项目实战多吗?
- 狂野架构师课程培训哪些内容?能学会吗?
- Spark SQL 结构化数据处理流程及原理是什么?
- Java互联网架构师就业前景怎么样?待遇好不好?
- 狂野架构师课程怎么样?Java架构师学什么内容?
- 狂野大数据厉害吗?可以提升哪些核心技能?
- 缓存淘汰策略有几种?要怎么用?
- 软件测试极速就业班课程怎么样?零基础能学吗 查看更多
扫描二维码,了解更多信息
