在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
Spark是一个实现快速通用的集群计算平台,它是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。在大数据库架构中常常需要使用Spark,Spark的知识点一直也是大数据面试题的重点,本文整理了Spark知识点汇总,现在就和大家一起梳理下吧!

1、Spark的核心是什么?
RDD是Spark的基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD也是Spark非常核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。
RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。
2、Spark的适用场景有哪些?
由于 RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。
3、Spark支持的编程语言有哪几种?
Spark通过与编程语言集成的方式暴露RDD的操作,类似于DryadLINQ和FlumeJava,每个数据集都表示为RDD对象,对数据集的操作就表示成对RDD对象的操作。
Spark主要支持的编程语言是Scala、java、python。
Scala
Spark使用Scala开发,默认使用Scala作为编程语言。编写Spark程序比编写Hadoop MapReduce程序要简单的多,SparK提供了Spark-Shell,可以在Spark-Shell测试程序。
Java
Spark支持Java编程,但对于使用Java就没有了Spark-Shell这样方便的工具,其它与Scala编程是一样的,因为都是JVM上的语言,Scala与Java可以互操作,Java编程接口其实就是对Scala的封装。
Python
现在 Spark也提供了Python编程接口,Spark使用py4j来实现python与java的互操作,从而实现使用python编写Spark程序。Spark也同样提供了pyspark,一个Spark的python shell,可以以交互式的方式使用Python编写Spark程序。
以上就是小编整理的有关Spark的知识点,全部都是干货呀,还没记住的小伙伴赶紧再复习一遍吧!
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据Lambda架构概念及应用
Lambda Architecture 概念Mathan Marz的大作Big Data: Principles and best practices of scalable real-time data systems介绍了Lambda Architecture的概念,用于在大数据架构中,如何让real-time与batch job更好地结合起来,以达成对大数据的实时处理。
11325
2020-09-04 17:57:48
哪里有比较好的大数据分析培训?
目前大部分关于大数据方向的培训课程都是关于大数据技术开发,主要培养与大数据挖掘、大数据爬虫、大数据存储以及算法开发工程师,相对来说说岗位偏向于开发技术。对于不想从事技术开发岗位的同学,关注更多的则是大数据分析培训课程。那目前国内哪里有比较好的大数据分析培训呢?
7897
2019-09-03 18:47:35
云数据安全之数据加密的要点分析
毫不夸张的说,当下是云计算和大数据的时代,我们的生活和工作都受到了云计算和大数据方方面面的影响,云计算和大数据不仅改变了我们的思维、生产方式,还改变了我们生活和学习方式。然而随之而来的云数据安全问题也是日益凸显,许多用户都遭受了大数据泄露带来的损失。本文就来和大家分析一下云数据安全中数据加密的要点。
8294
2019-10-31 19:21:05
大数据开发工程师需要了解的热门技术
目前大数据、人工智能、区块链已经成为未来互联网核心的发展趋势。人工智能技术还未成熟,而区块链的落地应用也缺乏市场的支撑,而大数据技术已经逐渐融入到各行各业,对于大数据开发工程师而言,哪些技术是受欢迎的?应该注重哪些方面技术的学习?
7403
2019-12-10 18:47:11
元数据是什么?它有什么用?
在大家接触到数据仓库管理系统的学习之后,有一个绕不开的知识点就是元数据。那么,元数据是什么?它有什么用呢?简单来讲,元数据就是描述数据的数据,它的作用就是维护数据仓库。如果大家还不明白,可以看看下面更加具体的解释~
9116
2020-06-05 15:36:25
