在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
大数据Hadoop生态体系中常见的子系统有哪些?Hadoop是一个针对大量数据进行分布式处理的软件框架,是一个开发和运行处理大规模数据的软件平台,是Appach的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,具有可靠、高效、可伸缩的特点,很多程序会用到这个框架。
今天就主要介绍下大数据Hadoop生态体系中常见的子系统:
1、HDFS分布式文件系统
HDFS是Hadoop分布式文件系统,是Hadoop生态系统中的核心项目之一,是分布式计算中数据存储管理基础。HDFS具有高容错性的数据备份机制,它能检测和应对硬件故障,并在低成本的通用硬件上运行。另外,HDFS具备流式的数据访问特点,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
2、MapReduce分布式计算框架
MapReduce是一种计算模型,用于大规模数据集(大于1TB)的并行运算。“Map”对数据集上的独立元素进行指定的操作,生成键值对形式中间结果;“Reduce”则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这种“分而治之”的思想,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
3、Yarn资源管理框架
Yarn是Hadoop2.0中的资源管理器,它可为上,层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
4、Sqoop数据迁移工具
Sqoop是一款开源的数据导入导出工具,主要用于在Hadoop与传统的数据库间进行数据的转换,它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型数据库中,使数据迁移变得非常方便。
5、Mahout数据挖掘算法库
Mahout是Apache旗下的一个开源项目,它提供了一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外通过使用ApacheHadoop库Mahout可以有效地扩展到云中。
6、Hbase分布式存储系统
HBase是GoogleBigtable克隆版,它是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
7、Zookeeper分布式协作服务
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和HBase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等用于构建分布式应用,减少分布式应用程序所承担的协调任务。
Hive是基于Hadoop的一个分布式数据仓库工具,可以将结构化的数据文件映射为一张数据库表,将SQL语句转换为MapReduce任务进行运行。其优点是操作简单,降低学习成本,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
9、Flume日志收集工具
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。
大数据Hadoop生态体系中常见的子系统汇总:HDFS分布式文件系统、MapReduce分布式计算框架、Yarn资源管理框架、Sqoop数据迁移工具、Mahout数据挖掘算法库、Hbase分布式存储系统、Zookeeper分布式协作服务、Hive基于Hadoop的数据仓库、Flume日志收集工具等。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
Hadoop基础知识快速入门
学习大数据的同学都知道,Hadoop是一个很重要的知识点。本文主要概括了Hadoop的定义、优势和作用,带大家了解Hadoop基础知识能够快速入门。
6572
2019-08-08 20:13:01
云计算大数据培训班学费多少钱?
云计算大数据培训就业班学费多少钱?在互联网行业,云计算大数据技术可谓是夺人眼球,对于企业来说,云计算大数据技术为企业优化产业结构,大大节约了成本。对于从业者来说,提供了更多的就业机会,同时也让大家的加薪成为现实。从而很多同学想通过技术培训就业班进入云计算大数据技术领域。现在云计算大数据培训机就业班学费多少钱?
7089
2019-12-05 15:48:33
Hadoop集群搭建过程总结
本文主要总结了Hadoop集群搭建的过程,内容包括发行版本说明、Hadoop集群简介、服务器准备、网络环境准备、服务器系统设置以及JDK 环境安装。有学习需要的小伙伴一起来看看吧~
5463
2020-06-18 15:32:40
大数据开发工程师需要学习哪些知识点?
大数据开发工程师需要学习哪些知识点?大数据程序员需要有坚实的大数据技术理论基础、了解数据平台、掌握数据存储 HDFS、、日志解析及计算 MR、数据获取和预处理 Flume、结构化查询 Hive、数据获取和预处理 Sqoop、大数据调度框架Azkaban、Scala编程基础等相关知识。
5263
2020-09-03 14:13:34
狂野大数据课程好学吗?难不难?
这门课程对标企业5年真实⼤数据从业⼈员的技能⽔平,因此学习这门课程需要有一定的基础,假设课程内容100%吸收⾜以对标甚⾄秒杀企业中5年⼤数据经验的开发⼈员。学成后知识储备完全胜任⾼级⼤数据开发职称。
1878
2022-09-29 16:42:05