在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Spark是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
一、’什么是 Spark
Spark 是基于内存计算大数据分析引擎,提高了在大数据环境下数据处理的实时性。Spark 仅仅只涉及到数据的计算,没有涉及到数据的存储。
二、Spark HA 高可用部署
*Spark HA 解决 Master 单点故障的两种方案:
1.基于文件系统的单点恢复(主要用于开发或测试环境)
2.基于 zookeeper 的 Standby Masters(用于生产模式)
*基于 zookeeper 的 Spark HA 高可用集群部署
(1)im spark-env.sh
注释掉 export SPARK_MASTER_HOST=hdp-node-01
(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS,内容如下:
spark.deploy.recoveryMode:
恢复模式(Master 重新启动的模式)有三种:
(1)ZooKeeper
(2) FileSystem
(3)NONE
spark.deploy.zookeeper.url:ZooKeeper 的 Server 地址
spark.deploy.zookeeper.dir:保存集群元数据信息的文件、目录。包括 Worker,Driver 和 Application。
注意:
在普通模式下启动 spark 集群,只需要在主机上面执行 start-all.sh 就可以了。在高可用模式下启动 spark 集群,先需要在任意一台节点上启动 start-all.sh命令。然后在另外一台节点上单独启动 master。命令 start-master.sh。
三、Spark-Shell
读取本地文件
1.运行 spark-shell --master local[N](N 表线程数)
2.编写 scala 代码
sc.textFile("file:///root///words.txt")
.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
读取 HDFS 上数据
1.整合 spark 和 HDFS,修改配置文件 spark-env.sh
export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop
2.启动 hdfs,然后重启 spark 集群
3.向 hdfs 上传个文件
4.在 spark shell 中用 scala 语言编写 spark 程序指定具体的 master 地址
1.执行启动命令:
spark-shell \
--master spark://hdp-node-01:7077 \
--executor-memory 1g \
--total-executor-cores 2
若没指定 master 地址则默认本地模式
2.编写 scala 代码
以上就是“科普Spark,什么是Spark”的全部内容,大家都了解了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
怎样学习spark
现在一提到云计算大数据,就会想到spark。要怎样学习spark呢?首先我们需要简单了解一下它:Spark 是一种与 Hadoop 相似的开源集群计算环境,甚至在某些工作负载方面表现得更加优越。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有非常完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位;
7087
2019-08-06 10:20:49
大数据工程师需要具备哪些能力?
大数据工程师需要具备哪些能力?这是许多想在大数据时代把握住发展机遇的学习者,在学习大数据前共同关心的问题。其实任何一个岗位需要具备的能力无外乎两种,即在专业领域的硬实力和职场发展上的软实力。对于大数据行业来讲,要向具备其相应的专业能力,需要学习的内容有很多。下面我就来为大家一一分析,大数据工程师需要具备的各项能力和掌握的各项知识。
9620
2020-01-16 17:03:43
数据中台对企业有哪些意义和作用?
随着数据化浪潮席卷全球,数据中台也由此应运而生。众所周知,数据中台的主要作用在于把数据进行统一标准和口径之后,再进行储存和加工,从而使企业可以提供更高效的服务。简单来讲,数据中台是以节省企业成本,实现精细化运营为目标。那么数据中台对企业到底有哪些具体意义和作用呢?下面我们来具体看一下。
7710
2020-02-10 22:29:52
Zookeeper基本知识总结
本文为大家整理总结了Zookeeper的基本知识,主要内容有Zookeeper概述、ZooKeeper特性、ZooKeeper集群角色以及ZooKeeper集群搭建。下面一起来看看大数据学习中的干货知识吧~
4910
2020-06-11 19:12:50
从后端开发转大数据开发怎么样?
你为什么从后端开发(Java/golang)转到大数据开发(Hadoop/Spark)?转大数据的最初原因很简单,就是好几个同事都转了,他们的收入瞬间提高了好多,于是在同事的内推我也就跟着转了,转完以后发现自己真的转对了。有以下几个理由:
3594
2022-06-30 14:25:06