在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Spark是一个实现快速通用的集群计算平台,它是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。在大数据库架构中常常需要使用Spark,Spark的知识点一直也是大数据面试题的重点,本文整理了Spark知识点汇总,现在就和大家一起梳理下吧!
1、Spark的核心是什么?
RDD是Spark的基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD也是Spark非常核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。
RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。
2、Spark的适用场景有哪些?
由于 RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。
3、Spark支持的编程语言有哪几种?
Spark通过与编程语言集成的方式暴露RDD的操作,类似于DryadLINQ和FlumeJava,每个数据集都表示为RDD对象,对数据集的操作就表示成对RDD对象的操作。
Spark主要支持的编程语言是Scala、java、python。
Scala
Spark使用Scala开发,默认使用Scala作为编程语言。编写Spark程序比编写Hadoop MapReduce程序要简单的多,SparK提供了Spark-Shell,可以在Spark-Shell测试程序。
Java
Spark支持Java编程,但对于使用Java就没有了Spark-Shell这样方便的工具,其它与Scala编程是一样的,因为都是JVM上的语言,Scala与Java可以互操作,Java编程接口其实就是对Scala的封装。
Python
现在 Spark也提供了Python编程接口,Spark使用py4j来实现python与java的互操作,从而实现使用python编写Spark程序。Spark也同样提供了pyspark,一个Spark的python shell,可以以交互式的方式使用Python编写Spark程序。
以上就是小编整理的有关Spark的知识点,全部都是干货呀,还没记住的小伙伴赶紧再复习一遍吧!
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据对企业的意义是什么?有哪些大数据经典案例?
大数据技术的意义是什么?对于企业而言,可以根据大数据的分析使产品更加符合消费者的需求,根据目标用户特征锁定精准用户群体,同时还可以通过数据制定更好的推广方案,提高有效转化率,也可以帮助企业在危机来临之前展示预警功能,从而降低相应的损失。那有哪些我们知道的大数据经典案例呢?下面我们一起来看一下吧。
9962
2019-07-16 18:21:12
大数据专业学习难度大吗?需要学习什么技术?
众所周知,大数据专业是目前互联网行业中高薪岗位之一。然而看到高薪的机会,大部分同学立刻行动投入大数据专业的学习中,也有一部分同学发表自己的疑问:大数据专业这样高薪是否学习难度非常大?如果从事大数据专业工作,需要学习什么技术呢?
13724
2019-09-02 19:04:37
ETL工程师是干什么的?ETL工程师工作内容介绍
随着大数据时代的来临,ETL工程师逐渐出现在大众的视野中,那么ETL工程师是干什么的呢?直白一点说,ETL工程师又叫数据库工程师,需要掌握各种流行的编程语言,每天的工作就是和数据库打交道,下面详细介绍一下ETL工程师的工作内容,以便于大家进一步了解这个职业。
58203
2019-09-15 12:34:13
大数据测试的发展和困境分析
随着大数据技术的日益深入发展,大数据测试应运而生。可以预见,大数据测试将成为软件测试工程师的发展目标之一。可能对于许多人来讲,大数据测试还是一个十分陌生的概念。实际上,大数据测试不同于传统的软件测试,在测试类型、策略和工具上,都有很大的不同。本文将为大家仔细分析一下大数据测试的发展和困境,下面我们一起来看看!
6889
2020-03-03 23:44:15
为什么大数据技术那么火?
大数据技术的概念早在2008年被Google提出。在我国2012年提出《大数据研究和发展计划》,从此我国的开放、共享和只能的大数据时代正式开启。随着一线互联网企业在大数据领域的成熟应用,以及国内政策的支持。2016年,云计算大数据技术再次成为人们所追捧的热门技术,与此同时国内大数据人才培养体系逐渐完善,为大数据的普及应用提供源源不断的人才支撑。
4493
2020-09-15 17:36:12