在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
众所周知,HBase是一个非关系型数据库,它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中,还是大数据的工作中,这都是一个经常会出现的难题,然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。

在 HBase 中无论是增加新行还是修改已有的行,其内部流程都是相同的。HBase 接到命令后存下变化信息,或者写入失败抛出异常。默认情况下,执行写入时会写到两个地方:预写式日志(write-ahead log,也称 HLog)和 MemStore。HBase 的默认方式是把写入动作记录在这两个地方,以保证数据持久化。只有当这两个地方的变化信息都写入并确认后,才认为写动作完成。
MemStore 是内存里的写入缓冲区,HBase 中数据在永久写入硬盘之前在这里累积。当MemStore 填满后,其中的数据会刷写到硬盘,生成一个HFile。HFile 是HBase 使用的底层存储格式。HFile 对应于列族,一个列族可以有多个 HFile,但一个 HFile 不能存储多个列族的数据。在集群的每个节点上,每个列族有一个MemStore。
大型分布式系统中硬件故障很常见,HBase 也不例外。设想一下,如果MemStore 还没有刷写,服务器就崩溃了,内存中没有写入硬盘的数据就会丢失。HBase 的应对办法是在写动作完成之前先写入WAL。HBase 集群中每台服务器维护一个 WAL 来记录发生的变化。WAL 是底层文件系统上的一个文件。直到WAL 新记录成功写入后,写动作才被认为成功完成。这可以保证 HBase 和支撑它的文件系统满足持久性。大多数情况下,HBase 使用 Hadoop 分布式文件系统(HDFS)来作为底层文件系统。
如果 HBase 服务器宕机,没有从 MemStore 里刷写到 HFile 的数据将可以通过回放 WAL 来恢复。你不需要手工执行。Hbase 的内部机制中有恢复流程部分来处理。每台 HBase 服务器有一个 WAL,这台服务器上的所有表(和它们的列族)共享这个 WAL。
你可能想到,写入时跳过 WAL 应该会提升写性能。但我们不建议禁用 WAL, 除非你愿意在出问题时丢失数据。如果你想测试一下,如下代码可以禁用WAL: 注意:不写入 WAL 会在 RegionServer 故障时增加丢失数据的风险。关闭 WAL, 出现故障时 HBase 可能无法恢复数据,没有刷写到硬盘的所有写入数据都会丢失。
以上就是关于Hbase内部机制的疑难解答。大家要是想深入学习大数据的更多内容,可以上博学谷视频资源平台,看看有没有想要学习的视频课程,相信一定不会让大家失望。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据面试题 Hadoop的联邦机制
大数据学习需要掌握很多技术知识点,包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。今天主要和大家分享一下Hadoop的联邦机制。
11206
2019-07-18 23:40:42
大数据Hbase经典面试题汇总
本文是根据市场需求和许多程序员面试的反馈而整理出来的,里面汇总了近些年来有关Hbase知识点的大数据经典面试题。希望本文能帮助求职者梳理Hbase知识点,让求职者在面试过程中胸有成竹。
9839
2019-08-05 19:10:38
大数据笔记之分布式文件存储系统
现在是大数据的时代,也是数据爆炸的时代,如何处理大数据的存储成为了摆在人们面前的难题,因此分布式文件存储系统应用而生。同时分布式文件存储系统在大数据面试中,也是一个常常可以见到的考点之一。本文为大家梳理了相关的大数据知识点,感兴趣的小伙伴可以看一看。
6978
2019-11-05 16:26:09
数据中台对企业有哪些意义和作用?
随着数据化浪潮席卷全球,数据中台也由此应运而生。众所周知,数据中台的主要作用在于把数据进行统一标准和口径之后,再进行储存和加工,从而使企业可以提供更高效的服务。简单来讲,数据中台是以节省企业成本,实现精细化运营为目标。那么数据中台对企业到底有哪些具体意义和作用呢?下面我们来具体看一下。
8370
2020-02-10 22:29:52
数据仓库、数据湖、智能湖仓分别是什么?
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合;数据湖,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的;强大的数据湖及其配套的专用构建数据服务体系,智能湖仓称为架构。
4355
2021-05-28 14:54:10
