在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Spark是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
一、’什么是 Spark
Spark 是基于内存计算大数据分析引擎,提高了在大数据环境下数据处理的实时性。Spark 仅仅只涉及到数据的计算,没有涉及到数据的存储。
二、Spark HA 高可用部署
*Spark HA 解决 Master 单点故障的两种方案:
1.基于文件系统的单点恢复(主要用于开发或测试环境)
2.基于 zookeeper 的 Standby Masters(用于生产模式)
*基于 zookeeper 的 Spark HA 高可用集群部署
(1)im spark-env.sh
注释掉 export SPARK_MASTER_HOST=hdp-node-01
(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS,内容如下:
spark.deploy.recoveryMode:
恢复模式(Master 重新启动的模式)有三种:
(1)ZooKeeper
(2) FileSystem
(3)NONE
spark.deploy.zookeeper.url:ZooKeeper 的 Server 地址
spark.deploy.zookeeper.dir:保存集群元数据信息的文件、目录。包括 Worker,Driver 和 Application。
注意:
在普通模式下启动 spark 集群,只需要在主机上面执行 start-all.sh 就可以了。在高可用模式下启动 spark 集群,先需要在任意一台节点上启动 start-all.sh命令。然后在另外一台节点上单独启动 master。命令 start-master.sh。
三、Spark-Shell
读取本地文件
1.运行 spark-shell --master local[N](N 表线程数)
2.编写 scala 代码
sc.textFile("file:///root///words.txt")
.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
读取 HDFS 上数据
1.整合 spark 和 HDFS,修改配置文件 spark-env.sh
export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop
2.启动 hdfs,然后重启 spark 集群
3.向 hdfs 上传个文件
4.在 spark shell 中用 scala 语言编写 spark 程序指定具体的 master 地址
1.执行启动命令:
spark-shell \
--master spark://hdp-node-01:7077 \
--executor-memory 1g \
--total-executor-cores 2
若没指定 master 地址则默认本地模式
2.编写 scala 代码
以上就是“科普Spark,什么是Spark”的全部内容,大家都了解了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据面试题 Storm实时看板案例
随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战,而Storm让大数据分析变得轻松加愉快。今天,小编和大家分享大数据面试题之Storm实时看板案例。
9111
2019-07-11 14:22:13
5G大数据技术防控新型肺炎疫情发挥重要作用
5G网络见证武汉版“小汤山”火神山医院和雷神山医院的建设;大数据报告指导疫情防控;云视频会议提高指挥效率;医疗云诊疗服务信息化。5G网络、大数据报告、远程医疗、云视讯等,在抗击新型冠状病毒感染的肺炎疫情中,多项新技术应用提高了疫情防控工作效率。
6425
2020-02-07 10:26:34
Flink从入门到实践课程介绍
Flink是解放程序员的一款开源大数据计算引擎,本文将为大家介绍Flink从入门到实践的课程详情,主要包括课程的学习内容、亮点特色和学习收获,对Flink感兴趣或者有学习需要的小伙伴可以看一看。
4208
2020-04-21 18:22:10
累加器和广播变量分别在什么场景使用?
累加器和广播变量分别在什么场景使用?累加器分布式共享只写变量,如果在转换算子中调用累加器后续没有行动算子,累加器不会执行。后续如果调用了两次行动算子,会执行两次累加器出现多加的情况。
2759
2022-04-19 15:57:48
狂野大数据课程怎么样?项目实战多吗?
狂野大数据课程作为数字化人才的职场提升课程采用的是线上授课模式,学习该课程无需脱产对在职人群而言一边工作一边实现自我价值提升可谓一举两得。这门课程有一定门槛,课程适合有⼀定的IT⾏业经验,想要转⾏进⼊⼤数据开发或者有技术深造需求的同学。
3151
2022-09-16 15:31:39