原创 大数据面试题 Spark知识点汇总

发布时间:2019-07-25 15:33:51 浏览 3342 来源:博学谷资讯 作者:照照

    Spark是一个实现快速通用的集群计算平台,它是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。在大数据库架构中常常需要使用Spark,Spark的知识点一直也是大数据面试题的重点,本文整理了Spark知识点汇总,现在就和大家一起梳理下吧!

     

    大数据面试题Spark的知识点

     

    1、Spark的核心是什么?

     

    RDD是Spark的基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD也是Spark非常核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。

     

    RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。

     

    2、Spark的适用场景有哪些?

     

    由于 RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。

     

    3、Spark支持的编程语言有哪几种?

     

    Spark通过与编程语言集成的方式暴露RDD的操作,类似于DryadLINQ和FlumeJava,每个数据集都表示为RDD对象,对数据集的操作就表示成对RDD对象的操作。

     

    Spark主要支持的编程语言是Scala、java、python。

     

    Scala

     

    Spark使用Scala开发,默认使用Scala作为编程语言。编写Spark程序比编写Hadoop MapReduce程序要简单的多,SparK提供了Spark-Shell,可以在Spark-Shell测试程序。

     

    Java

     

    Spark支持Java编程,但对于使用Java就没有了Spark-Shell这样方便的工具,其它与Scala编程是一样的,因为都是JVM上的语言,Scala与Java可以互操作,Java编程接口其实就是对Scala的封装。

     

    Python

     

    现在 Spark也提供了Python编程接口,Spark使用py4j来实现python与java的互操作,从而实现使用python编写Spark程序。Spark也同样提供了pyspark,一个Spark的python shell,可以以交互式的方式使用Python编写Spark程序。

     

    以上就是小编整理的有关Spark的知识点,全部都是干货呀,还没记住的小伙伴赶紧再复习一遍吧!

    申请免费试学名额    

在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!

上一篇: 博学谷云计算大数据在线培训班讲师怎么样? 下一篇: 学大数据哪个学校靠谱?该怎么选?

相关推荐 更多

    推荐课程

  • 基于Kudu实现物联网数据存储与分析

    ¥299 进阶 236

  • MapReduce从入门到实战

    免费 基础 503

  • 大数据进阶训练营(前置课)

    ¥699 基础 187

  • 基于Kylin搞定电信数据分析

    ¥199 进阶 226

  • Java进阶大数据开发公开课

    免费 基础 974

热门文章

  • jQuery框架安装及jQuery特点介绍
  • 初学编程遇到程序报错问题怎么解决?
  • 5W2H数据分析方法及思维是什么?
  • UI设计师要懂什么技术?掌握哪些知识?
  • 哪里可以培训少儿编程老师?学什么?
  • 软件测试方法和技术知识点有哪些?
  • 2021年2月IT编程语言排行榜
  • PHP从入门到精通需要多长时间?
  • 产品经理需要的技能是什么?具备哪些能力?
  • 新媒体运营是做什么的?工作内容有哪些?
  • 查看更多

扫描二维码,了解更多信息

博学谷二维码