原创大数据Hbase面试宝典（上）

发布时间：2019-07-03 19:05:17 浏览 9698 来源：博学谷资讯作者：照照

经历了水深火热的大数据学习，终于拨开云雾见天明了，同学们离成功就差了一步，那就是拿到大数据工程师的Offer。本文详细为同学们整理了一份大数据Hbase面试宝典。

大数据Hbase面试宝典

一、hbase的特点是什么？

1Hbase一个分布式的基于列式存储的数据库，基于Hadoop的 hdfs 存储，zookeeper 进行管理。

2.Hbase适合存储半结构化或非结构化数据，对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。

3.Hbase 为 null 的记录不会被存储。

4.基于的表包含 rowkey，时间戳，和列族。新写入数据时，时间戳更新，同时可以查询到以前的版本。

5.hbase 是主从架构。hmaster 作为主节点，hregionserver 作为从节点。

二、hbase如何导入数据？

使用MapReduce Job方式，根据HbaseAPI 编写java脚本，将文本文件用文件流的方式截取，然后存储到多个字符串数组中，在put方法下，通过对表中的列族进行for循环遍历列名，用if判断列名后进行for循环调用put.add的方法对列族下每一个列进行设值，每个列族下有几个了就赋值几次！没有表先对先创建表。

三、hbase 的存储结构？

Hbase 中的每张表都通过行键(rowkey)按照一定的范围被分割成多个子表（HRegion），默认一个HRegion超过256M就要被分割成两个，由HRegionServer管理，管理哪些HRegion由Hmaster分配。HRegion存取一个子表时，会创建一个HRegion对象，然后对表的每个列族（Column Family）创建一个store实例，每个store都会有0个或多个StoreFile与之对应，每个StoreFile都会对应一个HFile，HFile就是实际的存储文件，因此，一个HRegion还拥有一个MemStore实例。

四、Hbase 和 hive 有什么区别？hive 与 hbase 的底层存储是什么？hive 是产生的原因是什么？habase 是为了弥补 hadoop 的什么缺陷?

答：共同点：

1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别：

2.Hive是建立在Hadoop之上为了减少MapReducejobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。

3.想象你在操作RMDB数据库，如果是全表扫描，就用Hive+Hadoop，如果是索引访问，就用HBase+Hadoop 。

4.Hive query就是MapReduce jobs可以从5分钟到数小时不止，HBase是非常高效的，肯定比Hive高效的多。

5.Hive本身不存储和计算数据，它完全依赖于HDFS和 MapReduce，Hive中的表纯逻辑。

6.hive借用hadoop的MapReduce来完成一些hive中的命令的执行

7.hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。

8.hbase是列存储。

9.hdfs 作为底层存储，hdfs 是存放文件的系统，而 Hbase 负责组织文件。

10.hive 需要用到 hdfs 存储文件，需要用到 MapReduce 计算框架。解释下 hbase 实时查询的原理

答：实时查询，可以认为是从内存中查询，一般响应时间在 1 秒内。HBase 的机制是数据先写入到内存中，当数据量达到一定的量（如 128M），再写入磁盘中，在内存中，是不进行数据的更新或合并操作的，只增加数据，这使得用户的写操作只要进入内存中就可以立即返回，保证了 HBase I/O 的高性能。

四、列簇怎么创建比较好？

rowKey 最好要创建有规则的 rowKey，即最好是有序的。HBase 中一张表最好只创建一到两个列族比较好，因为 HBase 不能很好的处理多个列族。

以上是小编给大家整理的大数据Hbase面试题，即将面试的同学都收藏起来吧，希望对你们有所帮助。

大数据面试

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：常用的数据分析方法论有哪些？下一篇：大数据Hbase面试宝典（中）

相关推荐 更多

大数据工程师面试时需要注意的那些致命判断题

大数据工程师属于IT行业里面的高薪岗位，所以企业在招聘的时候不仅仅要考虑他们的专业技能，还要考察大数据工程师对于问题的判断能力，从而保障项目的高效率执行。所以和大家分享一些大数据工程师面试时需要注意的那些致命判断题。

9840

2019-06-27 18:23:44

大数据工程师大数据面试
大数据面试题 Hadoop/MapReduce，Spark，Strom，Hive 的特点及适用场景

随着移动互联网的发展，云计算大数据开发求职者越来越多，面对如此激烈的市场竞争，小编特为大家整理了大数据面试题：Hadoop/MapReduce，Spark，Strom，Hive 的特点及适用场景。

11358

2019-07-09 15:08:42

大数据面试
大数据面试题 Hive数仓开发的基本流程

数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的，这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库的设计大体上可以分为以下几个步骤：概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护。下面我们来看看Hive数仓开发的基本流程。

13687

2019-07-15 16:07:11

大数据面试
大数据面试题之分布式资源调度框架Yarn

Yarn作为一个资源管理、任务调度的框架，其重要性不言而喻。尤其是在近些年的大数据面试中，更是面试题的重点知识之一。为了大家在面试的时候，能够准备的更加充分，小编整理了一份有关分布式资源调度框架Yarn的大数据面试题,内容包括Yarn的架构、工作流程、调度器Scheduler。

10410

2019-09-12 11:00:53

大数据框架大数据面试
大数据工程师常见面试题编程模型

在大数据工程师的面试过程中，编程模型的相关问题常常是绕不过去的一个考点。同时编程模型也是大数据工程师工作中非常重要的知识技能。下面就来讲讲Spout、Bolt、并行度、消息不丢失这几方面的内容，感兴趣的小伙伴就赶紧接着看下去吧！

8872

2019-10-14 18:46:44

大数据工程师大数据面试