在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
本文将从Hadoop简介、Hadoop设计概念、Hadoop组件三大方面帮助大家从零开始认识Hadoop,下面赶紧进入正题吧!

一、Hadoop简介
Apache Hadoop是目前最流行的软件框架,可使用简单的高级编程模型实现大型数据集的分布式存储和处理。Hadoop是Apache Software Foundation的一个开源项目,可以安装在服务器集群上,以便这些服务器可以通信并协同工作来存储和处理大型数据集。Hadoop近年来因其有效处理大数据的能力而变得非常成功。它允许公司将所有数据存储在一个系统中,并对这些数据进行分析,否则传统解决方案不可能或非常昂贵。
围绕Hadoop构建的许多配套工具提供了各种各样的处理技术。与辅助系统和实用程序的集成非常出色,使Hadoop的实际工作更轻松,更高效。这些工具共同构成了Hadoop生态系统。
大家可以将Hadoop视为大数据操作系统,从而可以在所有庞大的数据集上运行不同类型的工作负载。其范围从离线批处理到机器学习再到实时流处理。
二、Hadoop设计概念
为了解决处理和存储大型数据集的挑战,Hadoop是根据以下核心特征构建的:
1、分布 - 存储和处理不是构建一台大型超级计算机,而是分布在一组通信和协同工作的小型机器上。
2、横向可扩展性 - 只需添加新计算机即可轻松扩展Hadoop集群。每台新机器都会按比例增加Hadoop集群的总存储和处理能力。
3、容错 - 即使少数硬件或软件组件无法正常工作,Hadoop仍可继续运行。
4、成本优化 - Hadoop不需要昂贵的高端服务器,无需商业许可即可正常工作。
5、编程抽象 - Hadoop负责处理与分布式计算相关的所有混乱细节。借助高级API,用户可以专注于实现解决现实问题的业务逻辑。
6、数据位置 - Hadoop不会将大型数据集移动到运行应用程序的位置,而是运行数据已经存在的应用程序。
三、Hadoop组件
Hadoop分为两个核心组件:HDFS分布式文件系统;YARN集群资源管理技术。
1、HDFS:
HDFS是一个Hadoop分布式文件系统。它可以在您需要的任意数量的服务器上运行 - HDFS可以轻松扩展到数千个节点和数PB的数据。HDFS设置越大,某些磁盘,服务器或网络交换机出现故障的概率就越大。HDFS通过在多个服务器上复制数据来幸免于这些类型的故障。HDFS自动检测给定组件是否已发生故障,并采取对用户透明发生的必要恢复操作。
HDFS设计用于存储数百兆字节或千兆字节的大型文件,并为它们提供高吞吐量的流数据访问。最后但同样重要的是,HDFS支持一次写入多次读取模型。对于这个用例,HDFS就像一个魅力。但是,如果您需要存储大量具有随机读写访问权限的小文件,那么其他系统(如RDBMS和Apache HBase)可以做得更好。
2、YARN:
YARN(Yet Another Resource Negotiator)负责管理Hadoop集群上的资源,并支持运行处理存储在HDFS上的数据的各种分布式应用程序。与HDFS类似,YARN遵循主从设计,ResourceManager进程充当主节点,多个NodeManager充当工作者。他们有以下责任:
(1)ResourceManager
跟踪实时NodeManagers以及群集中每台服务器上的可用计算资源量。为应用程序分配可用资源。监视Hadoop集群上所有应用程序的执行情况。
(2)节点管理器
管理Hadoop集群中单个节点上的计算资源(RAM和CPU)。运行各种应用程序的任务,并强制它们在指定的计算资源的限制范围内。
YARN以资源容器的形式将集群资源分配给各种应用程序,资源容器表示RAM量和CPU核心数量的组合。
Hadoop = HDFS + YARN
在同一群集上运行的HDFS和YARN守护程序为我们提供了一个用于存储和处理大型数据集的强大平台。
以上就是从零开始认识Hadoop的内容,不知道各位小伙伴都弄懂了吗?博学谷有Hadoop相关的在线课程,有兴趣的小伙伴可以在博学谷官网咨询。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据就业前景如何?现在学习大数据已经晚了吗?
大数据就业前景如何?现在学习大数据已经晚了吗?作为初入社会的大学生,或者想改变环境转行的同学,看到大数据技术开发者的高薪资都想进入这个行业,但是现在大数据技术依然想之前那样火爆吗?是不是学习了大数据技术就可以获得高薪呢?
9559
2019-08-08 14:17:56
Spark运行架构及其特点讲解
Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。本文主要内容有Spark运行架构的流程讲解和Spark运行架构的特点分析,感兴趣的小伙伴就赶紧看下去吧!
8895
2019-08-20 19:22:54
零基础小白的大数据入门手册
零基础小白的大数据入门手册,学大数据前,大家可能听过不少说大数据难学、入行做好心理准备的。大家听完也很动摇很犹豫,怀疑自己能不能学好大数据。这其实完全没有必要,觉得一个东西难,百分之八十的原因是你不了解它。对于零基础小白而言想学大数据,首先了解下大致学习路径有个框架,知道学习的方向。
5523
2020-06-15 17:33:18
零基础学大数据难吗?
零基础学大数据难吗?通过各大招聘平台我们可以看到,同样都是互联网技术岗位,大数据技术岗位的薪资普遍较高,不仅仅是因为目前布局大数据技术是各个企业的战略目标,同时也因为大数据技术有一定的难度,那对于零基础的同学能学会大数据技术吗?
6863
2020-08-24 14:31:50
推荐零基础学习大数据的10本经典图书
学习大数据并不是一蹴而就的事情,及时工作多年的开发工程师都需要不断的补充新鲜的知识内容。目前学习大数据知识可以通过视频和图书两种方式学习,视频的优势在于能够将老师的个人开发经验传授给学习者,而图书的优势在于能够随时翻阅,内容比较丰富。这里为大家推荐零基础学习大数据的8本经典图书,希望同学们能够通过不同的学习途径充分掌握大数据开发技能。
6612
2020-09-14 16:01:31
