在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
大数据学习需要掌握很多技术知识点,包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。今天主要和大家分享一下Hadoop和spark技术。

Hadoop是什么?
Hadoop在2006年开始成为雅虎项目,随后晋升为顶级Apache开源项目。它是一种通用的分布式系统基础架构,具有多个组件:Hadoop分布式文件系统(HDFS),它将文件以Hadoop本机格式存储并在集群中并行化; YARN,协调应用程序运行时的调度程序; MapReduce,这是实际并行处理数据的算法。Hadoop使用Java编程语言构建,其上的应用程序也可以使用其他语言编写。用一个Thrift客户端,用户可以编写MapReduce或者Python代码。
除了这些基本组件外,Hadoop还包括Sqoop,它将关系数据移入HDFS; Hive,一种类似SQL的接口,允许用户在HDFS上运行查询; Mahout,机器学习。除了将HDFS用于文件存储之外,Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。
它可以在Apache发行版开源,也可以用Cloudera(规模和范围最大的Hadoop供应商),MapR或HortonWorks等厂商提供。
Spark是什么?
Spark是一个较新的项目,在2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目,专注于在集群中并行处理数据,一大区别在于它在内存中运行。
类似于Hadoop读取和写入文件到HDFS的概念,Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行,Hadoop集群可用作数据源,也可与Mesos一起运行。在后一种情况下,Mesos主站将取代Spark主站或YARN以进行调度。
Spark是围绕Spark Core构建的,Spark Core是驱动调度,优化和RDD抽象的引擎,并将Spark连接到正确的文件系统(HDFS,S3,RDBM或Elasticsearch)。Spark Core上还运行了几个库,包括Spark SQL,允许用户在分布式数据集上运行类似SQL的命令,用于机器学习的MLLib,用于解决图形问题的GraphX以及允许输入连续流式日志数据的Streaming。
Spark有几个API。原始界面是用Scala编写的,并且由于大量数据科学家的使用,还添加了Python和R接口。Java是编写Spark作业的另一种选择。
Databricks是由Spark创始人Matei Zaharia创立的公司,现在负责 Spark开发并为客户提供Spark分销。
现在大数据专业在各个领域不断得到应用,不仅仅是数据为企业提供了发展方向的支撑,同时对于优势资源配置以及降低生产成本都有非常明显的指导作用。而对于求知者来说,学习大数据就是在位自己未来的职业发展中加分。目前想进入大数据行业,一般都是通过参加培训的方式,而对于在职的人群,脱产学习势必会有很大的压力,所以大家可以考虑通过博学谷在线教育平台学习大数据技术。想了解博学谷的课程,可以直接与博学谷平台老师沟通。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据技术分享:Hive的静态分区与动态分区
Hive是机遇Hadoop的一个数据仓库工具,它的学习成本低,可以通过类SQL语句快速实现简单的MAPReduce统计,十分适合数据仓库的统计。在Hive学习过程中必定会接触到分区,这是Hive存放数据的一种形式。查询数据时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描其他不关心的分区,快速定位,提高查询效率。分区分为静态分区和动态分区两种形式。
11997
2019-06-21 18:18:25
大数据面试:数据仓库工具hive面试题集锦
进入DATE时代,大数据技术成为互联网发展的核心要素之一。与此同时大数据开发工程师的薪资也成为行业内高薪的代表。想从事大数据开发需要掌握多种核心技术:Hadoop、Hive、Storm、Spark、Scala等等。而且这些技术知识点已经成为大数据工程师进入职场时面试中必备的考点。这里主要和大家分享一下数据仓库工具hive相关的面试题!
16746
2019-07-05 17:30:53
如何通过云计算大数据在线培训视频学习项目实战经验?
目前通过参加云计算大数据培训是成为进入大数据行业的重要途径之一。而对于时间并不充裕或者无法脱产学习以及异地学习的朋友而言,更多的选择云计算大数据在线培训的方式学习。那如果通过云计算大数据在线培训视频学习项目实战经验呢?
8056
2019-08-06 19:00:46
大数据测试的发展和困境分析
随着大数据技术的日益深入发展,大数据测试应运而生。可以预见,大数据测试将成为软件测试工程师的发展目标之一。可能对于许多人来讲,大数据测试还是一个十分陌生的概念。实际上,大数据测试不同于传统的软件测试,在测试类型、策略和工具上,都有很大的不同。本文将为大家仔细分析一下大数据测试的发展和困境,下面我们一起来看看!
7307
2020-03-03 23:44:15
数据仓库、数据湖、智能湖仓分别是什么?
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合;数据湖,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的;强大的数据湖及其配套的专用构建数据服务体系,智能湖仓称为架构。
4235
2021-05-28 14:54:10
