在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
随着移动互联网的发展,云计算大数据开发求职者越来越多。今天小编为大家整理了关于spark的经典面试题:spark中的RDD是什么?RDD有哪些特性?并且编写了较为详细的答案说明,希望能帮助大家解答这方面的疑惑。
RDD是什么
Spark是围绕弹性分布式数据集(RDD)的概念展开的,RDD是一种容错的可分布式操作的数据集合。有两中方式可以创建RDD:一种是将驱动程序中的已有集合平行化;另外一种是引用外部存储系统的数据集,例如共享文件系统,HDFS, HBase, 或者其他类似Hadoop的数据源。
RDD的特点之一是分布式存储,它的好处就是数据存储在不同的节点上,当需要数据进行计算的时候可以在这些节点上并行操作。弹性表现在节点在存储RDD数据的时候,既可以存储在内存中,也可以存储在磁盘上,也可以两者结合使用。RDD还有个特点就是延迟计算,当是transformation算子的时候,并不执行操作,直到遇到action算子的时候才开始执行计算。
RDD有哪些特性
1 、A list of partitions
——RDD是由多个partition构成的。
2、A function for computing each split
——RDD的每个分区上都有一个函数去作用
3、 A list of dependencies on other RDDs
——RDD有依赖性,通常情况下一个RDD是来源于另一个RDD,这个叫做lineage。RDD会记录下这些依赖,方便容错。
4、Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
——可选项,如果RDD里面存的数据是key-value形式,则可以传递一个自定义的Partitioner进行重新分区,例如这里自定义的Partitioner是基于key进行分区,那则会将不同RDD里面的相同key的数据放到同一个partition里面。
5、Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
——最优的位置去计算,也就是数据的本地性。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
为什么大数据和云计算备受关注,大数据与云计算的关系
互联网技术不断突破与革新,大数据和云计算的概念现在已经成为互联网的热门词汇。为什么大数据和云计算这样备受关注呢?他们之间有什么关系?相信很多小伙伴也存在这样的疑问。
7518
2019-06-12 17:36:02
大数据培训班是骗局吗?大数据培训班到底坑不坑?
近些年,大数据的概念火热,就业前景广阔,相信很多人都因此想要学习大数据。但是由于自学效率低不适合大部分人,所以很多人考虑到参加大数据培训班。但是想要参加大数据培训班的同学不免担心,大数据培训班是骗局吗?其实问题答案很简单,大数据培训班当然不是骗局,大数据培训班到底坑不坑?那就要看你怎么选择培训机构了。
39093
2019-08-08 17:27:28
企业大数据竞争优势有哪些?
企业大数据竞争优势:企业利用大数据可以进行目标客户细分、提高效率降低成本、筛选优秀人才、制定有效策略。在大数据时代,使用数据分析的手段很关键,通过数据分析才能带来价值。
5766
2020-04-28 16:44:45
大数据开发和大数据分析师到底有何区别?怎么分辨?
数据工程师建设和优化系统,专注于解决分析方面的问题;大数据分析师从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测。两只之间有着本质的差别。
4715
2020-10-15 09:27:35
吐血整理的大数据学习资源大全
大量学习资源,内容系统且全面,各大网站、相关书籍、公众号等。
2511
2022-08-05 18:32:12