博学谷 > 资讯 > 大数据 > 大数据Hbase面试宝典(中)

原创 大数据Hbase面试宝典(中)

发布时间:2019-07-04 13:58:56 浏览 3432 来源:博学谷资讯 作者:照照

    应广大同学的需求,本文继续整理了大数据HBase面试问题,希望大家阅读本篇文章以后有所收获,能够对大数据技术的理解更加深入和全面。

     

    大数据<a href = 'https://www.boxuegu.com/news/480.html' target='_blank' style='color: #466de2;font-size: 14px'>Hbase</a>面试宝典(中)

     

    一、 解释下 hbase 实时查询的原理

     

    实时查询,可以认为是从内存中查询,一般响应时间在 1 秒内。HBase 的机制是数据先写入到内存中,当数据量达到一定的量(如 128M),再写入磁盘中, 在内存中,是不进行数据的更新或合并操作的,只增加数据,这使得用户的写操作只要进入内存中就可以立即返回,保证了 HBase I/O 的高性能。

     

    二、描述 Hbase 的 rowKey 的设计原则

     

    问题导读:联系 region 和 rowkey 关系说明,设计可参考以下三个原则.

    1、 rowkey 长度原则
    rowkey 是一个二进制码流,可以是任意字符串,最大长度 64kb,实际应用中一般为 10-100bytes,以 byte[]形式保存,一般设计成定长。建议越短越好,不要超过 16 个字节, 原因如下:

    数据的持久化文件 HFile 中是按照 KeyValue 存储的,如果 rowkey 过长会极大影响 HFile 的存储效率 MemStore 将缓存部分数据到内存,如果 rowkey 字段过长,内存的有效利用率就会降低,系统不能缓存更多的数据,这样会降低检索效率

    2、 rowkey 散列原则

    如果 rowkey 按照时间戳的方式递增,不要将时间放在二进制码的前面,建议将 rowkey 的高位作为散列字段,由程序随机生成,低位放时间字段,这样将提高数据均衡分布在每个 RegionServer,以实现负载均衡的几率。如果没有散列字段,首字段直接是时间信息,所有的数据都会集中在一个 RegionServer 上,这样在数据检索的时候负载会集中在个别的 RegionServer 上,造成热点问题,会降低查询效率。

    3、 rowkey 唯一原则

    必须在设计上保证其唯一性,rowkey 是按照字典顺序排序存储的,因此, 设计 rowkey 的时候,要充分利用这个排序的特点,将经常读取的数据存储到一块,将最近可能会被访问的数据放到一块。

     

    三、描述 Hbase 中 scan 和 get 的功能以及实现的异同

     

    1、按指 定 RowKey 获 取 唯 一 一 条 记 录 , get 方法( org.apache.hadoop.hbase.client.Get ) Get的方法处理分两种 : 设置了ClosestRowBefore和没有设置的 rowlock 主要是用来保证行的事务性,即每个get 是以一个 row 来标记的.一个 row 中可以有很多 family 和 column。

    2.按指定的条件获取一批记录,scan 方法(org.apache.Hadoop.hbase.client.Scan)实现条件查询功能使用的就是 scan 方式.

    1)scan 可以通过 setCaching 与 setBatch 方法提高速度(以空间换时间);

    2)scan 可以通过 setStartRow 与 setEndRow 来限定范围([start,end]start? 是闭区间,end 是开区间)。范围越小,性能越高;

    3)scan 可以通过 setFilter 方法添加过滤器,这也是分页、多条件查询的基础。 3.全表扫描,即直接扫描整张表中所有行记录。

     

    四、请详细描述 Hbase 中一个 Cell 的结构

     

    HBase 中通过 row 和 columns 确定的为一个存贮单元称为 cell。Cell:由{row key, column(=<family> + <label>), version}是唯一确定的单元cell 中的数据是没有类型的,全部是字节码形式存贮。

     

    还没梳理过大数据Hbase面试题的同学赶紧多看几遍吧,以上都小编的干货分享,有需要的同学可以收藏起来。

    申请免费试学名额    

在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!

领取成功
领取失败
上一篇:大数据Hbase面试宝典(上) 下一篇:Namenode HA 知识点讲解

相关推荐 更多

最新文章

扫描二维码,回复"大数据"获取20G资料包