在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Spark是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
一、’什么是 Spark
Spark 是基于内存计算大数据分析引擎,提高了在大数据环境下数据处理的实时性。Spark 仅仅只涉及到数据的计算,没有涉及到数据的存储。
二、Spark HA 高可用部署
*Spark HA 解决 Master 单点故障的两种方案:
1.基于文件系统的单点恢复(主要用于开发或测试环境)
2.基于 zookeeper 的 Standby Masters(用于生产模式)
*基于 zookeeper 的 Spark HA 高可用集群部署
(1)im spark-env.sh
注释掉 export SPARK_MASTER_HOST=hdp-node-01
(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS,内容如下:
spark.deploy.recoveryMode:
恢复模式(Master 重新启动的模式)有三种:
(1)ZooKeeper
(2) FileSystem
(3)NONE
spark.deploy.zookeeper.url:ZooKeeper 的 Server 地址
spark.deploy.zookeeper.dir:保存集群元数据信息的文件、目录。包括 Worker,Driver 和 Application。
注意:
在普通模式下启动 spark 集群,只需要在主机上面执行 start-all.sh 就可以了。在高可用模式下启动 spark 集群,先需要在任意一台节点上启动 start-all.sh命令。然后在另外一台节点上单独启动 master。命令 start-master.sh。
三、Spark-Shell
读取本地文件
1.运行 spark-shell --master local[N](N 表线程数)
2.编写 scala 代码
sc.textFile("file:///root///words.txt")
.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
读取 HDFS 上数据
1.整合 spark 和 HDFS,修改配置文件 spark-env.sh
export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop
2.启动 hdfs,然后重启 spark 集群
3.向 hdfs 上传个文件
4.在 spark shell 中用 scala 语言编写 spark 程序指定具体的 master 地址
1.执行启动命令:
spark-shell \
--master spark://hdp-node-01:7077 \
--executor-memory 1g \
--total-executor-cores 2
若没指定 master 地址则默认本地模式
2.编写 scala 代码
以上就是“科普Spark,什么是Spark”的全部内容,大家都了解了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
如何搭建hadoop平台?详细步骤讲解
如何搭建hadoop平台?本文将详细讲解以下步骤:虚拟机及系统安装、在虚拟机中配置JAVA环境、修改hosts、修改hostname vim 、配置ssh、压缩包解压、修改hadoop配置文件、修改HBase配置、修改HBase配置、修改hive配置、修改sqoop配置、修改zookeeper配置等等,手把手指导大家搭建hadoop平台。
8066
2019-08-08 15:46:19
大数据HIve数据仓库应用案例讲解分析
如今,大数据的大浪已经把我们每个人都卷入其中,随着大数据技术一起引起大众注意的还有HIve数据仓库。作为大数据分析的核心工具之一,它一直发挥着为企业提供决策支持的重要作用。因此掌握Hive是入门大数据学习的关键之一,下面我们就一起来看看HIve数据仓库应用案例讲解。
6201
2019-09-20 16:55:35
数据仓库与数据库的区别是什么?
相信大数据学习者对于数据仓库与数据库并不陌生,两者都是通过数据库软件实现存放数据的地方,从这个意义上来看,它们似乎没有多大的差别。但是再深入一点分析,我们会发现无论是从数据量还是作用来讲,两者的区别都是巨大的。为了更清楚的分辨数据仓库与数据库,下面我们具体来聊聊数据仓库与数据库的区别。
13914
2020-06-05 11:06:23
零基础小白的大数据入门手册
零基础小白的大数据入门手册,学大数据前,大家可能听过不少说大数据难学、入行做好心理准备的。大家听完也很动摇很犹豫,怀疑自己能不能学好大数据。这其实完全没有必要,觉得一个东西难,百分之八十的原因是你不了解它。对于零基础小白而言想学大数据,首先了解下大致学习路径有个框架,知道学习的方向。
3257
2020-06-15 17:33:18
如何成为高薪的复合型大数据人才?
对于职场人来说不想被淘汰,除了提升自己的核心技能之外还得成为复合型人才以此增强自己的职场竞争能力。职场人更应该打开自己,保持学习状态,增强学习的能力,随时准备好在工作中接受跨界的任务,甚至主动让自己成为链接的节点。
1820
2022-05-30 15:59:38