在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
HDFS即Hadoop分布式文件系统。它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。那大数据中HDFS 存储的机制怎样的呢?
HDFS的存储机制主要从它的三个实体来说!
数据块
每个磁盘都有默认的数据块大小,这是磁盘进行读写的基本单位。构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块。该文件系统中的块一般为磁盘块的整数倍。磁盘块一般为 512 字节。HDFS 也有块的概念,默认为64MB(一个map处理的数据大小)。HDFS上的文件也被划分为块大小的多个分块,与其他文件系统不同的是,HDFS 中小于一个块大小的文件不会占据整个块的空间。
HDFS用块存储带来的第一个明显的好处一个文件的大小可以大于网络中任意一个磁盘的容量,数据块可以利用磁盘中任意一个磁盘进行存储。第二个简化了系统的设计,将控制单元设置为块,可简化存储管理,计算单个磁盘能存储多少块就相对容易。同时也消除了对元数据的顾虑,如权限信息,可以由其他系统单独管理。
DataNode 节点
DataNode 是 HDFS 文件系统的工作节点,它们根据需要存储并检索数据块,受NameNode节点调度。并且定期向 NameNode 发送它们所存储的块的列表。
NameNode 节点
NameNode 管理 HDFS 文件系统的命名空间,它维护着文件系统树及整棵树的所有的文件及目录。这些文件以两个文件形式永久保存在本地磁盘上(命名空间镜像文件和编辑日志文件).NameNode 记录着每个文件中各个块所在的数据节点信息但并不永久保存这些块的位置信息,因为这些信息在系统启动时由数据节点重建。
没有 NameNode,文件系统将无法使用。如提供 NameNode 服务的机器损坏,文件系统上的所有文件丢失,我们就不能根据 DataNode 的块来重建文件。因此,对 NameNode 的容错非常重要。第一种机制,备份那些组成文件系统元数据持久状态的文件。通过配置使 NameNode在多个文件系统上保存元数据的持久状态或将数据写入本地磁盘的同时,写入一个远程挂载的网络文件系统。当然这些操作都是原子操作。第二种机制是运行一个辅助的 NameNode,它会保存合并后的命名空间镜像的副本,并在Name/Node发生故障时启用。但是辅助NameNode保存。态总是滞后于主力节点,所以在主节点全部失效后难免丢失数据。在这种情况下,一般把存储在远程挂载的网络文件系统的数据复制到辅助NameNode并作为新的主NameNode 运行。
大数据Hadoop中HDFS 存储的机制?就和大家介绍到这里。如果想了解更多大数据相关知识,可以持续关注博学谷,或者通过博学谷大数据课程进行学习。我们会持续分享更多关于大数据的知识。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
什么是数据可视化?三分钟快速解读
大数据时代如何做好数据分析是每个企业都在关注的问题,而数据可视化无疑是未来的发展趋势之一。相信大家对数据可视化并不陌生,但是大家真的了解什么是数据可视化吗?本文就用三分钟简单解读一下数据可视化的概念、发展、优势和工具,带大家快速了解和认识数据可视化。
8787
2019-11-29 16:51:22
大数据开发工程师需要了解的热门技术
目前大数据、人工智能、区块链已经成为未来互联网核心的发展趋势。人工智能技术还未成熟,而区块链的落地应用也缺乏市场的支撑,而大数据技术已经逐渐融入到各行各业,对于大数据开发工程师而言,哪些技术是受欢迎的?应该注重哪些方面技术的学习?
6044
2019-12-10 18:47:11
云计算大数据在线培训班靠不靠谱?
如今,云计算和大数据已经成为了未来的发展趋势。在时代潮流的要求下,不少人纷纷想进入云计算大数据行业,然而自学难度大、时间长、效率低,那么到底应该如何进入该行业呢?参加云计算大数据在线培训班可以说是一个有效的方法。然而,也有不少人会担心,云计算大数据在线培训班靠不靠谱?下面小编将从课程内容、师资力量和教学方式,为大家全面分析一下云计算大数据在线培训班。
7140
2019-12-30 21:18:38
大数据测试的发展和困境分析
随着大数据技术的日益深入发展,大数据测试应运而生。可以预见,大数据测试将成为软件测试工程师的发展目标之一。可能对于许多人来讲,大数据测试还是一个十分陌生的概念。实际上,大数据测试不同于传统的软件测试,在测试类型、策略和工具上,都有很大的不同。本文将为大家仔细分析一下大数据测试的发展和困境,下面我们一起来看看!
7174
2020-03-03 23:44:15
入行大数据学习路线分享 学习不迷路
入行大数据学习路线分享 学习不迷路,想要从事大数据技术开发工作请问要怎么做,学习路线是什么?从哪里开始学?学哪些?对于想学大数据的人群有诸多的疑问,大数据本质上是海量数据。以往的数据开发,需要一定的Java基础和工作经验,门槛高入门难。如果零基础入门数据开发行业的小伙伴可以从Python语言入手。
3114
2022-02-18 11:06:17