在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创 spark中的RDD是什么？RDD有哪些特性？

发布时间：2019-07-02 14:04:50 浏览 12988 来源：博学谷资讯作者：照照

随着移动互联网的发展，云计算大数据开发求职者越来越多。今天小编为大家整理了关于spark的经典面试题：spark中的RDD是什么？RDD有哪些特性？并且编写了较为详细的答案说明，希望能帮助大家解答这方面的疑惑。

spark中的RDD是什么？RDD有哪些特性？

RDD是什么
Spark是围绕弹性分布式数据集（RDD）的概念展开的，RDD是一种容错的可分布式操作的数据集合。有两中方式可以创建RDD：一种是将驱动程序中的已有集合平行化；另外一种是引用外部存储系统的数据集，例如共享文件系统，HDFS, HBase, 或者其他类似Hadoop的数据源。
RDD的特点之一是分布式存储，它的好处就是数据存储在不同的节点上，当需要数据进行计算的时候可以在这些节点上并行操作。弹性表现在节点在存储RDD数据的时候，既可以存储在内存中，也可以存储在磁盘上，也可以两者结合使用。RDD还有个特点就是延迟计算，当是transformation算子的时候，并不执行操作，直到遇到action算子的时候才开始执行计算。

RDD有哪些特性
1 、A list of partitions
——RDD是由多个partition构成的。
2、A function for computing each split
——RDD的每个分区上都有一个函数去作用
3、 A list of dependencies on other RDDs
——RDD有依赖性，通常情况下一个RDD是来源于另一个RDD，这个叫做lineage。RDD会记录下这些依赖，方便容错。
4、Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
——可选项，如果RDD里面存的数据是key-value形式，则可以传递一个自定义的Partitioner进行重新分区，例如这里自定义的Partitioner是基于key进行分区，那则会将不同RDD里面的相同key的数据放到同一个partition里面。
5、Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
——最优的位置去计算，也就是数据的本地性。

大数据开发

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：经典数据分析应用介绍下一篇：盘点五种主流的大数据计算框架

相关推荐 更多

程序员必须掌握的大数据分析核心技术有哪些？

程序员必须掌握的大数据分析核心技术有哪些？大数据分析技术现是一种传统的技术分析模型，主要对数据进行筛选、过滤之后进行分析。随着银行业、保险业，电子商务的不断发展，非结构数据的数量越来越多，增加了大数据分析的难度，对于大数据方面的程序员要求越来越高。

8549

2020-03-05 15:19:17

大数据技术大数据开发专业技能
ZooKeeper数据模型解析

ZooKeeper的数据模型采用树形层次结构，而Znode就是ZooKeeper树中的每个节点。和文件系统的目录树一样，ZooKeeper树中的每个节点可以拥有子节点。但也有不同之处：比如Znode兼具文件和目录两种特点，而且它还具有原子性操作，存储数据大小也有限制。另外，Znode还是通过路径引用。下面我们来看看数据结构图、节点类型、节点属性以及ZooKeeper Watcher相关内容。

7370

2020-06-15 10:32:03

大数据技术大数据开发
Hadoop集群搭建过程总结

本文主要总结了Hadoop集群搭建的过程，内容包括发行版本说明、Hadoop集群简介、服务器准备、网络环境准备、服务器系统设置以及JDK 环境安装。有学习需要的小伙伴一起来看看吧~

8301

2020-06-18 15:32:40

大数据开发软件工具
缓存如何分类？有什么区别？

缓存分类按照系统划分为应用级缓存和系统级别缓存；按照设计分本地缓存、分布式缓存、多级缓存。在技术界“缓存为王”，从浏览器到应用前端、应用后端、数据库，每一层都能通过缓存来提高系统的扩展能力，改善系统的响应能力同时减少系统的负担。

7624

2022-04-07 15:59:17

大数据开发零基础入门
跳槽直接涨薪25k年薪60w 羡慕的话说麻了

“羡慕”这个词我真的说麻了，之前的薪资25k就已经很高了但是在学完《狂野大数据》课程后找工作直接薪资翻倍

4654

2022-06-07 14:06:39

大数据开发