博学谷 > 资讯 > 大数据 > 大数据核心技术:spark学习总结

原创 大数据核心技术:spark学习总结

发布时间:2019-06-19 17:37:43 浏览 3336 来源:博学谷资讯 作者:枫调

      想要学习大数据,一定要充分掌握大数据的核心技术:HadoopStromspark等等。Spark是一种与Hadoop像是的开源集群计算环境。它启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

     

    大数据核心技术:spark学习总结

     

      1Spark的核心是什么?

     

      RDDSpark的基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD也是Spark非常核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。

      RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。

     

      2Spark的适用场景有哪些?

     

      由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。

     

      3Spark支持的编程语言有哪几种?

     

      Spark通过与编程语言集成的方式暴露RDD的操作,类似于DryadLINQFlumeJava,每个数据集都表示为RDD对象,对数据集的操作就表示成对RDD对象的操作。Spark主要支持的编程语言是Scalajavapython

     

      1ScalaSpark使用Scala开发,默认使用Scala作为编程语言。编写Spark程序比编写Hadoop MapReduce程序要简单的多,SparK提供了Spark-Shell,可以在Spark-Shell测试程序。

     

      2JavaSpark支持Java编程,但对于使用Java就没有了Spark-Shell这样方便的工具,其它与Scala编程是一样的,因为都是JVM上的语言,ScalaJava可以互操作,Java编程接口其实就是对Scala的封装。

     

      3Python。现在Spark也提供了Python编程接口,Spark使用py4j来实现pythonjava的互操作,从而实现使用python编写Spark程序。Spark也同样提供了pyspark,一个Sparkpython shell,可以以交互式的方式使用Python编写Spark程序。

     

      相对于MapReduceSpark凭借基于内存计算和可以直接读写Hadoop上任何格式数据的优势,进行批处理时更加高效,并有更低的延迟。

     

      以上就是大数据学习中关于spark的学习总结。大数据的学习中核心技术非常多。包含LinuxZookeeperHadoopRedisHDFSMapReduceHivelmpalaHueOozieStormKafkaSparkScalaSparkSQLHbaseFlink、机器学习等。正式因为大数据技术比较复杂所以现在大数据岗位的薪资一直处于非常高的水平。如果想了解更多关于大数据学习的知识,可以参考博学谷大数据课程。

    申请免费试学名额    

在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!

领取成功
领取失败
上一篇:大数据培训 零基础大数据培训课程学什么 下一篇:数据挖掘、数据分析以及大数据之间的区别有哪些?

相关推荐 更多

最新文章

扫描二维码,回复"大数据"获取20G资料包