想要学习大数据,一定要充分掌握大数据的核心技术:Hadoop、Strom、spark等等。Spark是一种与Hadoop像是的开源集群计算环境。它启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
1、Spark的核心是什么?
RDD是Spark的基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD也是Spark非常核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。
RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。
2、Spark的适用场景有哪些?
由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。
3、Spark支持的编程语言有哪几种?
Spark通过与编程语言集成的方式暴露RDD的操作,类似于DryadLINQ和FlumeJava,每个数据集都表示为RDD对象,对数据集的操作就表示成对RDD对象的操作。Spark主要支持的编程语言是Scala、java、python。
1)Scala。Spark使用Scala开发,默认使用Scala作为编程语言。编写Spark程序比编写Hadoop MapReduce程序要简单的多,SparK提供了Spark-Shell,可以在Spark-Shell测试程序。
2)Java。Spark支持Java编程,但对于使用Java就没有了Spark-Shell这样方便的工具,其它与Scala编程是一样的,因为都是JVM上的语言,Scala与Java可以互操作,Java编程接口其实就是对Scala的封装。
3)Python。现在Spark也提供了Python编程接口,Spark使用py4j来实现python与java的互操作,从而实现使用python编写Spark程序。Spark也同样提供了pyspark,一个Spark的python shell,可以以交互式的方式使用Python编写Spark程序。
相对于MapReduce,Spark凭借基于内存计算和可以直接读写Hadoop上任何格式数据的优势,进行批处理时更加高效,并有更低的延迟。
以上就是大数据学习中关于spark的学习总结。大数据的学习中核心技术非常多。包含Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。正式因为大数据技术比较复杂所以现在大数据岗位的薪资一直处于非常高的水平。如果想了解更多关于大数据学习的知识,可以参考博学谷大数据课程。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据是什么?与数据之间有什么区别?
大数据是什么?从字面的理解我可以认为他是大量的数据,而在计算机网络领域则将大数据定义为需要更新处理模式才能具有更强的决策力,洞察发现力和流程优化能力来适应海量,高增长了和多样化的薪资资产。因此大数据不仅仅是在数据量的变化,好包括其增长速度以及多样化的特性。
5862
2019-06-06 15:48:59
大数据未来的发展方向和趋势预测分析
在大数据时代,任何一个细微的数据都能被挖掘和了解,可以说大数据已经渗透进了现代生活的每个的角落,影响并改变着我们日常生活和工作的方方面面。在未来,大数据还会又怎样的发展呢?本文就来为大家预测分析一下大数据未来的发展方向和趋势。
5128
2019-09-27 11:39:15
数据仓库和数据挖掘的有什么联系和区别?
数据仓库和数据挖掘的有什么联系和区别?首先我们要清楚数据仓库是一个实现数据存放庞大的地方,而数据挖掘是从海量的数据中提取数据。因此这两者在本质上就存在明显的区别,不过两者既相互区别又相互联系,数据仓库和数据挖掘都可以看做是商业智能工具集合。下面我们来好好认识一下数据仓库和数据挖掘的定义、联系和区别吧!
4383
2020-01-12 17:13:04
推荐零基础学习大数据的10本经典图书
学习大数据并不是一蹴而就的事情,及时工作多年的开发工程师都需要不断的补充新鲜的知识内容。目前学习大数据知识可以通过视频和图书两种方式学习,视频的优势在于能够将老师的个人开发经验传授给学习者,而图书的优势在于能够随时翻阅,内容比较丰富。这里为大家推荐零基础学习大数据的8本经典图书,希望同学们能够通过不同的学习途径充分掌握大数据开发技能。
2293
2020-09-14 16:01:31
大数据开发工程师必备技能有哪些?
大数据开发工程师必备技能有哪些?随着全行业数字化转型和新基建时代的到来,对技术人才提出了更高的要求。不管是面试还是实际工作过程中,数据工程师要时时刻刻面对这些层出不穷的技术演进。
1646
2021-01-29 14:50:23
热门文章
- 人工智能如何入门学习?前景如何
- 未来互联网人才还稀缺吗?哪些技术方向热门?
- 智能汽车用到哪些技术?
- 产品可行性分析需要考虑几个方面?
- 日常工作中程序员最讨厌哪些工作事项?
- 博学谷狂野大数据学习多长时间?
- IT互联网程序员的涨薪秘籍是什么?
- Java多线程遇到死锁三招彻底解决
- Python 开发人员经常遇哪些挑战?如何解决?
- 狂野架构师课程如何?能学到什么? 查看更多
扫描二维码,了解更多信息
