在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创科普Spark，什么是Spark？

发布时间：2019-07-09 12:04:57 浏览 8906 来源：博学谷资讯作者：照照

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

科普Spark，什么是Spark？

一、’什么是 Spark

Spark 是基于内存计算大数据分析引擎，提高了在大数据环境下数据处理的实时性。Spark 仅仅只涉及到数据的计算，没有涉及到数据的存储。

二、Spark HA 高可用部署

*Spark HA 解决 Master 单点故障的两种方案：

1.基于文件系统的单点恢复(主要用于开发或测试环境)

2.基于 zookeeper 的 Standby Masters(用于生产模式)

*基于 zookeeper 的 Spark HA 高可用集群部署

(1)im spark-env.sh

注释掉 export SPARK_MASTER_HOST=hdp-node-01

(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS，内容如下：

spark.deploy.recoveryMode：

恢复模式（Master 重新启动的模式）有三种：

(1)ZooKeeper

(2) FileSystem

(3)NONE

spark.deploy.zookeeper.url：ZooKeeper 的 Server 地址

spark.deploy.zookeeper.dir：保存集群元数据信息的文件、目录。包括 Worker，Driver 和 Application。

注意：

在普通模式下启动 spark 集群，只需要在主机上面执行 start-all.sh 就可以了。在高可用模式下启动 spark 集群，先需要在任意一台节点上启动 start-all.sh命令。然后在另外一台节点上单独启动 master。命令 start-master.sh。

三、Spark-Shell

读取本地文件

1.运行 spark-shell --master local[N](N 表线程数)

2.编写 scala 代码

sc.textFile("file：///root///words.txt")

.flatMap(_.split(" ")).map((_，1)).reduceByKey(_+_).collect

读取 HDFS 上数据

1.整合 spark 和 HDFS，修改配置文件 spark-env.sh

export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop

2.启动 hdfs，然后重启 spark 集群

3.向 hdfs 上传个文件

4.在 spark shell 中用 scala 语言编写 spark 程序指定具体的 master 地址

1.执行启动命令：

spark-shell \

--master spark：//hdp-node-01：7077 \

--executor-memory 1g \

--total-executor-cores 2

若没指定 master 地址则默认本地模式

2.编写 scala 代码

以上就是“科普Spark，什么是Spark”的全部内容，大家都了解了吗？

大数据开发

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据面试：数据仓库工具hive面试题集锦下一篇：大数据面试题 Hadoop/MapReduce，Spark，Strom，Hive 的特点及适用场景

相关推荐 更多

什么是大数据即时分析？对金融服务的意义？

什么是大数据即时分析？对金融服务的意义？当今的金融服务公司正在寻求通过利用大数据分析来竞争，在数据战略方面获胜的结构：管理：数据迁移、数据选择、数据存储、数据测试；分析：数据结构、数据分析、机器学习、数据可视化；成果：成功指标、业务决策、货币化、市场领导力。

9968

2019-05-14 16:39:50

大数据开发
程序员常用数据库有哪些？

数据库就是数据存储的仓库，任何互联网产品都需要使用数据库保存运营过程中所产生的各种数据。SQL是一种数据库查询语言和程序设计语言，主要就是用于管理数据库中的数据，如存取数据、查询数据、更新数据等。在大数据技术不断提升与应用的市场背景下，数据库技术也得到很大的发展，目前数据库产品非常多，最常用的数据库有：Oracle、DB2、MongoDB、SQLServer、MySQL等。

10010

2019-12-05 18:48:08

大数据技术大数据开发软件工具
大数据测试的发展和困境分析

随着大数据技术的日益深入发展，大数据测试应运而生。可以预见，大数据测试将成为软件测试工程师的发展目标之一。可能对于许多人来讲，大数据测试还是一个十分陌生的概念。实际上，大数据测试不同于传统的软件测试，在测试类型、策略和工具上，都有很大的不同。本文将为大家仔细分析一下大数据测试的发展和困境，下面我们一起来看看！

7019

2020-03-03 23:44:15

大数据技术大数据开发
数据分析师获取数据的方式有哪些？

数据分析师工作的第一步就是获取数据，也就是数据采集。获取数据的方式有很多，本文将着重介绍一下数据分析中的数据来源。一般来讲，数据来源主要分为两大类，企业外部来源和内部来源。其中外部来源包括外部购买、网络爬取、免费开源数据等，内部数据来源包括销售数据、考勤数据、财务数据等。

7428

2020-08-07 18:19:53

大数据开发大数据入门大数据分析
女生学大数据好就业吗？前景如何？

随着人工智能物联网的发展，大数据人才急剧增加，大数据应用广泛未来将覆盖全行业，大数据人才稀缺人才缺口达百万以上，掌握大数据相关的技能就业前景比较广阔。学习大数据的男生确实比女生多，但还是有女生学，每个人的学习能力、思维方式都不同需要根据自身情况而定。

5954

2021-04-20 15:13:14

大数据开发