在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
Spark是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

一、’什么是 Spark
Spark 是基于内存计算大数据分析引擎,提高了在大数据环境下数据处理的实时性。Spark 仅仅只涉及到数据的计算,没有涉及到数据的存储。
二、Spark HA 高可用部署
*Spark HA 解决 Master 单点故障的两种方案:
1.基于文件系统的单点恢复(主要用于开发或测试环境)
2.基于 zookeeper 的 Standby Masters(用于生产模式)
*基于 zookeeper 的 Spark HA 高可用集群部署
(1)im spark-env.sh
注释掉 export SPARK_MASTER_HOST=hdp-node-01
(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS,内容如下:
spark.deploy.recoveryMode:
恢复模式(Master 重新启动的模式)有三种:
(1)ZooKeeper
(2) FileSystem
(3)NONE
spark.deploy.zookeeper.url:ZooKeeper 的 Server 地址
spark.deploy.zookeeper.dir:保存集群元数据信息的文件、目录。包括 Worker,Driver 和 Application。
注意:
在普通模式下启动 spark 集群,只需要在主机上面执行 start-all.sh 就可以了。在高可用模式下启动 spark 集群,先需要在任意一台节点上启动 start-all.sh命令。然后在另外一台节点上单独启动 master。命令 start-master.sh。
三、Spark-Shell
读取本地文件
1.运行 spark-shell --master local[N](N 表线程数)
2.编写 scala 代码
sc.textFile("file:///root///words.txt")
.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
读取 HDFS 上数据
1.整合 spark 和 HDFS,修改配置文件 spark-env.sh
export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop
2.启动 hdfs,然后重启 spark 集群
3.向 hdfs 上传个文件
4.在 spark shell 中用 scala 语言编写 spark 程序指定具体的 master 地址
1.执行启动命令:
spark-shell \
--master spark://hdp-node-01:7077 \
--executor-memory 1g \
--total-executor-cores 2
若没指定 master 地址则默认本地模式
2.编写 scala 代码
以上就是“科普Spark,什么是Spark”的全部内容,大家都了解了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据面试题 Hadoop的联邦机制
大数据学习需要掌握很多技术知识点,包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。今天主要和大家分享一下Hadoop的联邦机制。
11276
2019-07-18 23:40:42
博学谷云计算大数据培训班课程怎么样?
在线学习已经成为现在年轻人最主要的学习途径。博学谷作为国内高端的IT在线教育平台,依托传智播客13年教学经验的沉淀,推出云计算大数据培训课程。每年都有非常多的小伙伴在博学谷平台学习,对于还在观望的同学,博学谷云计算大数据培训班课程怎么样?在博学谷学习有什么优势呢?
6468
2019-09-06 18:22:40
数据分析应用在哪些领域?都起到了什么作用?
随着大数据的发展,数据分析早已渗透各行业各业,尤其是互联网、电商和金融三大行业。同时数据分析在电信、旅游、医疗健康等等领域,也有比较多的应用。下面我们来看看在这些领域数据分析究竟起了什么作用。
13556
2019-09-28 09:54:27
什么是数据科学异常值检测原理?
什么是数据科学异常值检测原理?异常值的检测方法有基于统计的方法,基于聚类的方法,以及一些专门检测异常值的方法等。使用pandas,可以直接使用describe()来观察数据的统计性描述,或者简单使用散点图也能很清晰的观察到异常值的存在。
8356
2020-03-20 16:21:07
大数据岗位基础要求有哪些?
大数据岗位基础要求:谈起大数据,当然少不了分析软件,这应该是做大数据工作的基础,但市场上有很多各种各样的分析软件,如果没有过人的经验,真的很难找到适合自己或者适合企业的。笔者通过各大企业对大数据相关行业的职位要求,归纳出如下要点:
6441
2020-07-06 14:22:39
热门文章
- 前端是什么
- 前端开发的工作职责
- 前端开发需要会什么?先掌握这三大核心关键技术
- 前端开发的工作方向有哪些?
- 简历加分-4步写出HR想要的简历
- 程序员如何突击面试?两大招带你拿下面试官
- 程序员面试技巧
- 架构师的厉害之处竟然是这……
- 架构师书籍推荐
- 懂了这些,才能成为架构师 查看更多
扫描二维码,了解更多信息
