在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
大数据Hadoop生态体系中常见的子系统有哪些?Hadoop是一个针对大量数据进行分布式处理的软件框架,是一个开发和运行处理大规模数据的软件平台,是Appach的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,具有可靠、高效、可伸缩的特点,很多程序会用到这个框架。
今天就主要介绍下大数据Hadoop生态体系中常见的子系统:

1、HDFS分布式文件系统
HDFS是Hadoop分布式文件系统,是Hadoop生态系统中的核心项目之一,是分布式计算中数据存储管理基础。HDFS具有高容错性的数据备份机制,它能检测和应对硬件故障,并在低成本的通用硬件上运行。另外,HDFS具备流式的数据访问特点,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
2、MapReduce分布式计算框架
MapReduce是一种计算模型,用于大规模数据集(大于1TB)的并行运算。“Map”对数据集上的独立元素进行指定的操作,生成键值对形式中间结果;“Reduce”则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这种“分而治之”的思想,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
3、Yarn资源管理框架
Yarn是Hadoop2.0中的资源管理器,它可为上,层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
4、Sqoop数据迁移工具
Sqoop是一款开源的数据导入导出工具,主要用于在Hadoop与传统的数据库间进行数据的转换,它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型数据库中,使数据迁移变得非常方便。
5、Mahout数据挖掘算法库
Mahout是Apache旗下的一个开源项目,它提供了一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外通过使用ApacheHadoop库Mahout可以有效地扩展到云中。
6、Hbase分布式存储系统
HBase是GoogleBigtable克隆版,它是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
7、Zookeeper分布式协作服务
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和HBase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等用于构建分布式应用,减少分布式应用程序所承担的协调任务。
Hive是基于Hadoop的一个分布式数据仓库工具,可以将结构化的数据文件映射为一张数据库表,将SQL语句转换为MapReduce任务进行运行。其优点是操作简单,降低学习成本,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
9、Flume日志收集工具
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。
大数据Hadoop生态体系中常见的子系统汇总:HDFS分布式文件系统、MapReduce分布式计算框架、Yarn资源管理框架、Sqoop数据迁移工具、Mahout数据挖掘算法库、Hbase分布式存储系统、Zookeeper分布式协作服务、Hive基于Hadoop的数据仓库、Flume日志收集工具等。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
参加大数据培训能找哪些工作?需要具备什么技能?
马云说我们进入了date时代。数据经代替大部分经验成为企业发展的指导准则。对于我们个体而言,首先我们的日常行为以及记录都是大数据的一部分。与此同时面对大数据的发展我们也有了更多的职业机会。因此很多小伙伴纷纷进入大数据培训学校,深化学习大数据技术。那现在参加大数据培训能找哪些工作?分别需要什么技能呢?
12205
2019-07-09 17:03:42
大数据Hbase面试题汇总
在大数据中,我们总会碰到Hbase数据库。尤其对于即将要面试大数据的小伙伴来说,Hbase数据库更是绕不过去的一个重要考点,因此小编汇总了近些年来比较常见且经典的大数据Hbase面试题,希望可以帮到大家。
9876
2019-08-20 18:49:37
计算机大数据应用技术就业前景怎么样?
计算机大数据应用技术就业前景怎么样?作为目前最为广泛和热门的新兴技术,计算机大数据应用技术的意义不在于存储海量的的数据信息,而在于对这些数据进行专业化处理,从而更好地辅助工作中的各项决策。因此,掌握了计算机大数据应用技术,其就业前景自然广阔明亮无比。关于大数据的更多就业方向选择,我们可以看看以下的具体分析。
15512
2020-01-14 15:33:07
Flink从入门到实践课程介绍
Flink是解放程序员的一款开源大数据计算引擎,本文将为大家介绍Flink从入门到实践的课程详情,主要包括课程的学习内容、亮点特色和学习收获,对Flink感兴趣或者有学习需要的小伙伴可以看一看。
6035
2020-04-21 18:22:10
Kafka的优势有哪些?经常应用在哪些场景?
Kafka的优势有哪些?经常应用在哪些场景?Kafka的优势比较多如多生产者无缝地支持多个生产者、多消费者、基于磁盘的数据存储、具有伸缩性、高性能轻松处理巨大的消息流。多用于开发消息系统,网站活动追踪、日志聚合、流处理等方面。今天我们一起来学习一下吧!
6345
2022-03-22 15:11:36
