在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据核心技术：Hadoop与spark

发布时间：2019-06-26 17:59:29 浏览 8477 来源：博学谷资讯作者：枫调

　　大数据学习需要掌握很多技术知识点，包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。今天主要和大家分享一下Hadoop和spark技术。

大数据核心技术：Hadoop与spark

　　Hadoop是什么?

　　Hadoop在2006年开始成为雅虎项目，随后晋升为顶级Apache开源项目。它是一种通用的分布式系统基础架构，具有多个组件：Hadoop分布式文件系统(HDFS)，它将文件以Hadoop本机格式存储并在集群中并行化; YARN，协调应用程序运行时的调度程序; MapReduce，这是实际并行处理数据的算法。Hadoop使用Java编程语言构建，其上的应用程序也可以使用其他语言编写。用一个Thrift客户端，用户可以编写MapReduce或者Python代码。

　　除了这些基本组件外，Hadoop还包括Sqoop，它将关系数据移入HDFS; Hive，一种类似SQL的接口，允许用户在HDFS上运行查询; Mahout，机器学习。除了将HDFS用于文件存储之外，Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。

　　它可以在Apache发行版开源，也可以用Cloudera(规模和范围最大的Hadoop供应商)，MapR或HortonWorks等厂商提供。

　　Spark是什么?

　　Spark是一个较新的项目，在2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目，专注于在集群中并行处理数据，一大区别在于它在内存中运行。

　　类似于Hadoop读取和写入文件到HDFS的概念，Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行，Hadoop集群可用作数据源，也可与Mesos一起运行。在后一种情况下，Mesos主站将取代Spark主站或YARN以进行调度。

　　Spark是围绕Spark Core构建的，Spark Core是驱动调度，优化和RDD抽象的引擎，并将Spark连接到正确的文件系统(HDFS，S3，RDBM或Elasticsearch)。Spark Core上还运行了几个库，包括Spark SQL，允许用户在分布式数据集上运行类似SQL的命令，用于机器学习的MLLib，用于解决图形问题的GraphX以及允许输入连续流式日志数据的Streaming。

　　Spark有几个API。原始界面是用Scala编写的，并且由于大量数据科学家的使用，还添加了Python和R接口。Java是编写Spark作业的另一种选择。

　　Databricks是由Spark创始人Matei Zaharia创立的公司，现在负责 Spark开发并为客户提供Spark分销。

　　现在大数据专业在各个领域不断得到应用，不仅仅是数据为企业提供了发展方向的支撑，同时对于优势资源配置以及降低生产成本都有非常明显的指导作用。而对于求知者来说，学习大数据就是在位自己未来的职业发展中加分。目前想进入大数据行业，一般都是通过参加培训的方式，而对于在职的人群，脱产学习势必会有很大的压力，所以大家可以考虑通过博学谷在线教育平台学习大数据技术。想了解博学谷的课程，可以直接与博学谷平台老师沟通。

大数据技术

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据思维到底是什么？下一篇：大数据工程师面试时需要注意的那些致命判断题

相关推荐 更多

学大数据技术必须了解的大数据经典应用案例

我们已经进入了数据化的时代，大数据开发技术、数据分析已经成为目前企业最核心的关注点。数据为企业提供了更加可靠的支撑，对于优化产业结构、提升生产效率有非常明显的作用。在企业纷纷布局大数据业务的同时，大数据相关人才缺口逐渐扩大。目前国内大数据相关从业人员已经超过20万，作为大数据从业人员，必须了解一些大数据相关的经典应用案例。

7527

2019-08-22 18:03:14

大数据技术大数据开发数据分析
大数据如何构建用户画像？

进入大数据时代，我们常常在谈论的一个概念就是用户画像。在互联网领域利用用户画像，可以达到精准营销的商业目的，因此这也是为什么构建用户画像在这个流量至上的年代如此重要的原因。任何企业公司的产品要想做好精细化运营，都需要先构建该产品和服务的用户画像。下面我们一起看看用户画像的概念和构建方法。

6276

2020-03-31 11:12:22

大数据技术
HDFS入门基础学习总结

HDFS全称就是Hadoop分布式文件系统，作为Hadoop的核心组件，它提供了最底层的分布式存储服务。本文整理了HDFS设计目标和HDFS的重要特性等等内容，下面一起来看HDFS入门基础学习总结吧~

5815

2020-06-09 16:19:01

大数据技术大数据入门
ZooKeeper数据模型解析

ZooKeeper的数据模型采用树形层次结构，而Znode就是ZooKeeper树中的每个节点。和文件系统的目录树一样，ZooKeeper树中的每个节点可以拥有子节点。但也有不同之处：比如Znode兼具文件和目录两种特点，而且它还具有原子性操作，存储数据大小也有限制。另外，Znode还是通过路径引用。下面我们来看看数据结构图、节点类型、节点属性以及ZooKeeper Watcher相关内容。

6375

2020-06-15 10:32:03

大数据技术大数据开发
无基础人员转行做机器学习可以吗？

机器学习需要一定数学基础，没有相关的了解需要重新学习。转行机器学习不适用所有人，可不可以转行需要具体结合自身的情况。入门机器学习有一定的门槛要慎重决定。

5146

2020-10-23 14:55:11

大数据技术机器学习