在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
大数据Hadoop生态体系中常见的子系统有哪些?Hadoop是一个针对大量数据进行分布式处理的软件框架,是一个开发和运行处理大规模数据的软件平台,是Appach的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,具有可靠、高效、可伸缩的特点,很多程序会用到这个框架。
今天就主要介绍下大数据Hadoop生态体系中常见的子系统:
1、HDFS分布式文件系统
HDFS是Hadoop分布式文件系统,是Hadoop生态系统中的核心项目之一,是分布式计算中数据存储管理基础。HDFS具有高容错性的数据备份机制,它能检测和应对硬件故障,并在低成本的通用硬件上运行。另外,HDFS具备流式的数据访问特点,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
2、MapReduce分布式计算框架
MapReduce是一种计算模型,用于大规模数据集(大于1TB)的并行运算。“Map”对数据集上的独立元素进行指定的操作,生成键值对形式中间结果;“Reduce”则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这种“分而治之”的思想,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
3、Yarn资源管理框架
Yarn是Hadoop2.0中的资源管理器,它可为上,层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
4、Sqoop数据迁移工具
Sqoop是一款开源的数据导入导出工具,主要用于在Hadoop与传统的数据库间进行数据的转换,它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型数据库中,使数据迁移变得非常方便。
5、Mahout数据挖掘算法库
Mahout是Apache旗下的一个开源项目,它提供了一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外通过使用ApacheHadoop库Mahout可以有效地扩展到云中。
6、Hbase分布式存储系统
HBase是GoogleBigtable克隆版,它是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
7、Zookeeper分布式协作服务
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和HBase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等用于构建分布式应用,减少分布式应用程序所承担的协调任务。
Hive是基于Hadoop的一个分布式数据仓库工具,可以将结构化的数据文件映射为一张数据库表,将SQL语句转换为MapReduce任务进行运行。其优点是操作简单,降低学习成本,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
9、Flume日志收集工具
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。
大数据Hadoop生态体系中常见的子系统汇总:HDFS分布式文件系统、MapReduce分布式计算框架、Yarn资源管理框架、Sqoop数据迁移工具、Mahout数据挖掘算法库、Hbase分布式存储系统、Zookeeper分布式协作服务、Hive基于Hadoop的数据仓库、Flume日志收集工具等。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据可视化相关工具介绍
大数据的实际应用中,有一个重要的环节,就是实现数据的可视化。这是数据分析结论导向的重要体现。你可以通过可视化的数据形式明晰的了解各种数据的分布以及占比,例如大数据招聘市场的分布、目前行业岗位薪资与学历的关系、大数据热门技术的应用比例等等。本文就和大家介绍一些大数据可视化的使用工具
8007
2019-08-09 18:04:01
云计算大数据培训班学费多少钱?
云计算大数据培训就业班学费多少钱?在互联网行业,云计算大数据技术可谓是夺人眼球,对于企业来说,云计算大数据技术为企业优化产业结构,大大节约了成本。对于从业者来说,提供了更多的就业机会,同时也让大家的加薪成为现实。从而很多同学想通过技术培训就业班进入云计算大数据技术领域。现在云计算大数据培训机就业班学费多少钱?
8530
2019-12-05 15:48:33
大数据应用技术的发展方向分析
如今,大数据的应用对企业公司以及个人都产生了深远影响,本文就来预测一下大数据应用技术的发展方向。可以预见的是,数据资产管理、数据资产管理、AI驱动的数据基础设施、面向AI的分布式计算框架和数据安全这些都将成为大数据应用技术的发展方向。对大数据应用技术感兴趣的小伙伴,可以接着往下看小编的的详细分析。
6595
2019-10-29 17:24:18
数据分析师获取数据的方式有哪些?
数据分析师工作的第一步就是获取数据,也就是数据采集。获取数据的方式有很多,本文将着重介绍一下数据分析中的数据来源。一般来讲,数据来源主要分为两大类,企业外部来源和内部来源。其中外部来源包括外部购买、网络爬取、免费开源数据等,内部数据来源包括销售数据、考勤数据、财务数据等。
6885
2020-08-07 18:19:53
大数据开发的前景和就业如何?该如何去学习它?
大数据开发的前景和就业如何?该如何去学习它? 从岗位招聘和投递的供求对比来看,互联网核心的技术/测试/运维仍保持着较为密集的人才需求,主要体现在企业对以人工 智能、数字孪生为代表的高技术岗位的需求,此类岗位同比保有两位数的高增长,相关从业者仍有较大的择业空间与机会。
3768
2022-07-25 11:32:15