在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
大数据Hadoop生态体系中常见的子系统有哪些?Hadoop是一个针对大量数据进行分布式处理的软件框架,是一个开发和运行处理大规模数据的软件平台,是Appach的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,具有可靠、高效、可伸缩的特点,很多程序会用到这个框架。
今天就主要介绍下大数据Hadoop生态体系中常见的子系统:

1、HDFS分布式文件系统
HDFS是Hadoop分布式文件系统,是Hadoop生态系统中的核心项目之一,是分布式计算中数据存储管理基础。HDFS具有高容错性的数据备份机制,它能检测和应对硬件故障,并在低成本的通用硬件上运行。另外,HDFS具备流式的数据访问特点,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
2、MapReduce分布式计算框架
MapReduce是一种计算模型,用于大规模数据集(大于1TB)的并行运算。“Map”对数据集上的独立元素进行指定的操作,生成键值对形式中间结果;“Reduce”则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这种“分而治之”的思想,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
3、Yarn资源管理框架
Yarn是Hadoop2.0中的资源管理器,它可为上,层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
4、Sqoop数据迁移工具
Sqoop是一款开源的数据导入导出工具,主要用于在Hadoop与传统的数据库间进行数据的转换,它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型数据库中,使数据迁移变得非常方便。
5、Mahout数据挖掘算法库
Mahout是Apache旗下的一个开源项目,它提供了一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外通过使用ApacheHadoop库Mahout可以有效地扩展到云中。
6、Hbase分布式存储系统
HBase是GoogleBigtable克隆版,它是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
7、Zookeeper分布式协作服务
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和HBase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等用于构建分布式应用,减少分布式应用程序所承担的协调任务。
Hive是基于Hadoop的一个分布式数据仓库工具,可以将结构化的数据文件映射为一张数据库表,将SQL语句转换为MapReduce任务进行运行。其优点是操作简单,降低学习成本,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
9、Flume日志收集工具
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。
大数据Hadoop生态体系中常见的子系统汇总:HDFS分布式文件系统、MapReduce分布式计算框架、Yarn资源管理框架、Sqoop数据迁移工具、Mahout数据挖掘算法库、Hbase分布式存储系统、Zookeeper分布式协作服务、Hive基于Hadoop的数据仓库、Flume日志收集工具等。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据培训时间要多久?零基础多久能学会?
大数据近年来非常火爆,连带着大数据人才也十分紧缺。学习大数据,不管是发展前景还是就业前景都非常乐观,这促使很多人想加入到大数据的大军中。想要学习大数据,大数据培训不失为一个比较好的选择,但是大数据培训时间要多久?零基础多久能学会?其实主要是依据学员基础决定的。
10561
2019-07-09 18:21:06
大数据Hbase面试题汇总
在大数据中,我们总会碰到Hbase数据库。尤其对于即将要面试大数据的小伙伴来说,Hbase数据库更是绕不过去的一个重要考点,因此小编汇总了近些年来比较常见且经典的大数据Hbase面试题,希望可以帮到大家。
9443
2019-08-20 18:49:37
线上大数据培训哪家好如何选择?
线上大数据培训哪家好应该如何选择?就线上培训这块,博学谷算是做的比较好的大数据培训平台。简单来讲,建议大家在做选择的时候,在口碑和知名度都不错的培训机构中挑选。同时多多考察大数据培训机构的课程质量、师资力量、教学模式等等方面,当然考察的方式不仅仅是听信培训机构的宣传,还要亲自体验课程,最好能和之前毕业的学员联系,深入了解培训的效果怎么样。
6835
2019-09-18 12:48:17
大数据智能与人工智能的联系和区别
现在进入了互联网时代,提出人工智能概念,人工智能已经在多个领域中实践,比如无人驾驶、图像识别、语音识别等领域。大数据不断采集、沉淀、分类等积累数据,人工智能基于大数据的支持和采集,运用于人工设定的特定性能和运算方式来实现。
7749
2020-07-27 16:48:30
大数据开发和软件开发哪个前景好?
大数据开发学习有难度,零基础入门要先学习Java语言打基础,然后进入大数据技术体系的学习,学习Hadoop、Spark、Storm等知识。软件开发工程师根据不同的学科从事的岗位也千差万别。
7420
2020-10-15 09:41:45
