在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
大数据spark框架常用数据类型RDD与DataFrame的区别,在spark中,RDD、DataFrame是最常用的数据类型,在Apache Spark 里面DF 优于RDD但也包含了RDD的特性,在使用的过程中分别介绍下两者的区别和各自的优势。
1、RDD是什么?
RDD(Resilient Distributed Datasets)提供了一种高度受限的共享内存模型。即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。RDD仍然足以表示很多类型的计算,包括MapReduce和专用的迭代编程模型(如Pregel)等。
RDD五大特点:(必须的)可分区的: 每一个分区对应就是一个Task线程;(必须的)计算函数(对每个分区进行计算操作);(必须的)存在依赖关系;(可选的)对于key-value数据存在分区计算函数;(可选的)移动数据不如移动计算(将计算程序运行在离数据越近越好)。
2、DataFrame是什么?
DataFrame是一种分布式的数据集,并且以列的方式组合的。类似于关系型数据库中的表。可以说是一个具有良好优化技术的关系表。DataFrame背后的思想是允许处理大量结构化数据。提供了一些抽象的操作,如select、filter、aggregation、plot。DataFrame包含带schema的行。schema是数据结构的说明。相当于具有schema的RDD。
DataFrame特性:支持从KB到PB级的数据量;支持多种数据格式和多种存储系统;通过Catalyst优化器进行先进的优化生成代码;通过Spark无缝集成主流大数据工具与基础设施;API支持Python、Java、Scala和R语言。
3、RDD和DataFrame有什么区别?
RDD是弹性分布式数据集,数据集的概念比较强一点。容器可以装任意类型的可序列化元素(支持泛型)
RDD的缺点是无从知道每个元素的【内部字段】信息。意思是下图不知道Person对象的姓名、年龄等。
DataFrame也是弹性分布式数据集,但是本质上是一个分布式数据表,因此称为分布式表更准确。DataFrame每个元素不是泛型对象,而是Row对象。
DataFrame的缺点是Spark SQL DataFrame API 不支持编译时类型安全,因此,如果结构未知,则不能操作数据;同时,一旦将域对象转换为Data frame ,则域对象不能重构。
DataFrame=RDD-【泛型】+schema+方便的SQL操作+【catalyst】优化DataFrame本质上是一个【分布式数据表】
DataFrame优于RDD,因为它提供了内存管理和优化的执行计划。总结为以下两点:
a.自定义内存管理:当数据以二进制格式存储在堆外内存时,会节省大量内存。除此之外,没有垃圾回收(GC)开销。还避免了昂贵的Java序列化。因为数据是以二进制格式存储的,并且内存的schema是已知的。
b.优化执行计划:这也称为查询优化器。可以为查询的执行创建一个优化的执行计划。优化执行计划完成后最终将在RDD上运行执行。
4、RDD与DataFrame个字有什么特性?
在Apache Spark 里面DF 优于RDD,但也包含了RDD的特性。
RDD和DataFrame的共同特征是不可性、内存运行、弹性、分布式计算能力。它允许用户将结构强加到分布式数据集合上。因此提供了更高层次的抽象。
从不同的数据源构建DataFrame。例如结构化数据文件、Hive中的表、外部数据库或现有的RDDs。DataFrame的应用程序编程接口(api)可以在各种语言中使用,包括Python、Scala、Java和R。
DataFrame API能够提高spark的性能和扩展性,避免了构造每行在dataset中的对象造成GC的代价。不同于RDD API能构建关系型查询计划更加有有利于熟悉执行计划的开发人员,同理不一定适用于所有人。
拿高薪入行大数据,选择《狂野大数据》课程,抓住大数据时代的“薪”机遇!!
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据面试题 Spark知识点汇总
Spark是一个实现快速通用的集群计算平台,它是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。在大数据库架构中常常需要使用Spark,Spark的知识点一直也是大数据面试题的重点,本文整理了Spark知识点汇总,现在就和大家一起梳理下吧!
7873
2019-07-25 15:33:51
大数据Kafka进阶面试题汇总
Kafka是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景。在大数据面试中,Kafka也是一个必考点。因此小编汇总了历年来比较经典常见的大数据Kafka进阶面试题。
6134
2019-08-22 19:26:09
大数据疑难解答 Hbase内部是什么机制?
众所周知,HBase是一个非关系型数据库,它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中,还是大数据的工作中,这都是一个经常会出现的难题,然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。
7167
2019-10-17 18:13:28
大数据开发工程师必备技能有哪些?
大数据开发工程师必备技能有哪些?随着全行业数字化转型和新基建时代的到来,对技术人才提出了更高的要求。不管是面试还是实际工作过程中,数据工程师要时时刻刻面对这些层出不穷的技术演进。
4508
2021-01-29 14:50:23
物联网和大数据可应用在哪些领域?
物联网和大数据是近年来最受媒体和企业关注的两大宏观技术趋势。两者也并驾齐驱,物联网旨在特定组织或环境中创建一个互联网络,使用该网络来收集数据并集中执行特定功能。物联网部署会生成大量以前未开发的数据,自动执行以前靠手动操作的任务。为了理解这些数据使自动化有意义需要对这些数据进行分析。
5433
2021-05-24 14:55:15