在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
众所周知,HBase是一个非关系型数据库,它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中,还是大数据的工作中,这都是一个经常会出现的难题,然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。
在 HBase 中无论是增加新行还是修改已有的行,其内部流程都是相同的。HBase 接到命令后存下变化信息,或者写入失败抛出异常。默认情况下,执行写入时会写到两个地方:预写式日志(write-ahead log,也称 HLog)和 MemStore。HBase 的默认方式是把写入动作记录在这两个地方,以保证数据持久化。只有当这两个地方的变化信息都写入并确认后,才认为写动作完成。
MemStore 是内存里的写入缓冲区,HBase 中数据在永久写入硬盘之前在这里累积。当MemStore 填满后,其中的数据会刷写到硬盘,生成一个HFile。HFile 是HBase 使用的底层存储格式。HFile 对应于列族,一个列族可以有多个 HFile,但一个 HFile 不能存储多个列族的数据。在集群的每个节点上,每个列族有一个MemStore。
大型分布式系统中硬件故障很常见,HBase 也不例外。设想一下,如果MemStore 还没有刷写,服务器就崩溃了,内存中没有写入硬盘的数据就会丢失。HBase 的应对办法是在写动作完成之前先写入WAL。HBase 集群中每台服务器维护一个 WAL 来记录发生的变化。WAL 是底层文件系统上的一个文件。直到WAL 新记录成功写入后,写动作才被认为成功完成。这可以保证 HBase 和支撑它的文件系统满足持久性。大多数情况下,HBase 使用 Hadoop 分布式文件系统(HDFS)来作为底层文件系统。
如果 HBase 服务器宕机,没有从 MemStore 里刷写到 HFile 的数据将可以通过回放 WAL 来恢复。你不需要手工执行。Hbase 的内部机制中有恢复流程部分来处理。每台 HBase 服务器有一个 WAL,这台服务器上的所有表(和它们的列族)共享这个 WAL。
你可能想到,写入时跳过 WAL 应该会提升写性能。但我们不建议禁用 WAL, 除非你愿意在出问题时丢失数据。如果你想测试一下,如下代码可以禁用WAL: 注意:不写入 WAL 会在 RegionServer 故障时增加丢失数据的风险。关闭 WAL, 出现故障时 HBase 可能无法恢复数据,没有刷写到硬盘的所有写入数据都会丢失。
以上就是关于Hbase内部机制的疑难解答。大家要是想深入学习大数据的更多内容,可以上博学谷视频资源平台,看看有没有想要学习的视频课程,相信一定不会让大家失望。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据可视化相关工具介绍
大数据的实际应用中,有一个重要的环节,就是实现数据的可视化。这是数据分析结论导向的重要体现。你可以通过可视化的数据形式明晰的了解各种数据的分布以及占比,例如大数据招聘市场的分布、目前行业岗位薪资与学历的关系、大数据热门技术的应用比例等等。本文就和大家介绍一些大数据可视化的使用工具
8388
2019-08-09 18:04:01
5分钟掌握Hadoop环境搭建流程
Hadoop是大数据技术的基础,它在大数据技术体系中的地位是非常重要的。目前Hadoop是主流的分布式系统基础架构之一,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。所以对于Hadoop基础知识的掌握的扎实程度,会决定你在大数据技术道路上走多远。首先我们来学习一下Hadoop环境搭建流程吧。
7790
2019-08-14 10:19:35
IT就业专业为什么要选择大数据技术应用?
IT就业专业为什么要选择大数据技术应用?目前大数据领域从业人员的薪资高涨幅空间大,大数据人才供不应求。各大数据开发方向,数据挖掘、数据分析和机器学习方向,大数据运维和云计算方向。
7629
2019-09-03 14:47:48
数据挖掘的步骤有哪些?
所谓数据挖掘就是从海量的数据中,找到隐藏在数据里有价值的信息。因为这个数据是隐式的,因此想要挖掘出来并不简单。那么,如何进行数据挖掘呢?数据挖掘的步骤有哪些呢?一般来讲,数据挖掘需要经历数据收集、数据可视化、数据预处理、准备模型输入以及训练模型五大步骤,下面让我们来详细分析一下吧!
6093
2020-08-10 15:32:38
大数据程序员的工作职责是什么?
大数据开发要负责公司大数据平台产品的技术工作,如需求分析、架构设计、研发、以及性能分析工作;提升Hadoop集群的高可用性、高性能、高扩展特性;海量数据的导入优化工作;理和完善各类文档等工作。
3484
2022-06-16 11:05:45