在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据面试：数据仓库工具hive面试题集锦

发布时间：2019-07-05 17:30:53 浏览 20819 来源：博学谷资讯作者：枫调

　　进入DATE时代，大数据技术成为互联网发展的核心要素之一。与此同时大数据开发工程师的薪资也成为行业内高薪的代表。想从事大数据开发需要掌握多种核心技术：Hadoop、Hive、Storm、Spark、Scala等等。而且这些技术知识点已经成为大数据工程师进入职场时面试中必备的考点。这里主要和大家分享一下数据仓库工具hive相关的面试题！

大数据面试：数据仓库工具hive面试题集锦

　　1、 Hive 的 join 有几种方式，怎么实现 join 的？

　　答：有3 种 join 方式：
　　1）在 reduce 端进行 join，最常用的 join 方式。
　　Map端的主要工作：为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录。然后用连接字段作为 key，其余部分和新加的标志作为 value，最后进行输出。
　　reduce 端的主要工作：在 reduce 端以连接字段作为 key 的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录 (在 map 阶段已经打标志)分开，最后进行笛卡尔。
　　2）在 map 端进行 join，使用场景：一张表十分小、一张表很大。
　　在提交作业的时候先将小表文件放到该作业的 DistributedCache 中，然后从 DistributeCache 中取出该小表进行 join key / value 解释分割放到内存中(可以放大 Hash Map 等等容器中)。然后扫描大表，看大表中的每条记录的 join key /value 值是否能够在内存中找到相同 join key 的记录，如果有则直接输出结果。
　　3）SemiJoin，semijoin 就是左边连接是 reducejoin 的一种变种，在 map 端过滤掉一些数据，在网络传输过程中，只传输参与连接的数据，减少了 shuffle的网络传输量，其他和 reduce的思想是一样的。
　　实现：将小表中参与 join 的 key 单独抽取出来通过 DistributeCache 分发到相关节点，在 map 阶段扫描连接表，将 join key 不在内存 hashset 的纪录过滤掉，让参与 join 的纪录通过 shuffle 传输到 reduce 端进行 join，其他和 reduce join 一样。

　　2、hive 内部表和外部表的区别？

　　内部表：建表时会在 hdfs 创建一个表的存储目录，增加分区的时候，会将数据复制到此location下，删除数据的时候，将表的数据和元数据一起删除。
　　外部表：一般会建立分区，增加分区的时候不会将数据移到此表的 location下，删除数据的时候，只删除了表的元数据信息，表的数据不会删除。

　　3、 hive 是如何实现分区的？

　　建表语句：
　　create table tablename (id) partitioned by (dt string)
　　增加分区：
　　alter table tablenname add partition (dt = ‘2016-03-06’)
　　删除分区：
　　alter table tablename drop partition (dt = ‘2016-03-06’)

　　4、 Hive 有哪些方式保存元数据，各有哪些优缺点。

　　1)存储于 derby 数据库，此方法只能开启一个hive客户端，不推荐使用
　　2)存储于mysql数据库中，可以多客户端连接，推荐使用。

　　5、 hive 如何优化？

　　1）join 优化，尽量将小表放在 join 的左边，如果一个表很小可以采用 mapjoin。
　　2）排序优化，order by 一个 reduce 效率低，distirbute by +sort by 也可以实现全局排序。
　　3）使用分区，查询时可减少数据的检索，从而节省时间。

　　6、 hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别？

　　TextFile：默认格式，数据不做压缩，磁盘开销大，数据解析开销大
　　SequenceFile：Hadoop API提供的一种二进制文件支持，使用方便，可分割，可压缩，支持三种压缩，NONE，RECORD，BLOCK。
　　RCFILE 是一种行列存储相结合的方式。首先，将数据按行分块，保证同一个 record 在同一个块上，避免读一个记录读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。数据加载的时候性能消耗大，但具有较好的压缩比和查询响应。

　　7、 hive 相对于Oracle来说有那些优点？

　　1）存储，hive 存储在 hdfs 上，oracle 存储在本地文件系统。
　　2）扩展性，hive 可以扩展到数千节点，oracle 理论上只可扩展到 100 台左右。
　　3）单表存储，数据量大 hive 可以分区分桶，oracle 数据量大只能分表。

　　8、 Hive 的 sort by 和 order by 的区别！

　　order by 会对输入数据做全局排序，只有一个 reduce，数据量较大时，很慢。
　　sort by 不是全局排序，只能保证每个 reduce 有序，不能保证全局有序，需设置mapred.reduce.tasks>1。
　　
　　9、博学谷大数据课程亮点有哪些？
　　1、新增当下大数据应用技术热点，使课程更全涵盖大数据体系中的技术点，包括但不限于Linux、Zookeeper、Hadoop、Yam、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Soark RDD、Spark SQL、Soark Streaming、Sqoop、Flume、CDH、Scala、Hbase、Flink、机器学习等，将离线数据分析、实时数据分析和内存数据计算中的技术点全面覆盖。
　　2、将晦涩难懂的理论一通俗易懂的方式进行讲解，然后通过深入分析源码让学员深入理解其内在原理，在照顾基础薄弱学习者的同时又融入核心技术点加以实战，夯实了基础又快速储备了丰富的实战经验。
　　3、此课程涵盖网站点击流日志分析系统、统一监控告警系统、用户画像、Flume 实战案例、Azkaban实战案例、Hbase实战案例和Hbase整合读写数据等源于企业中的真实项目和案例，以项目/案例驱动教学，将真实实例贯穿到知识点中，学中练、练中学、及时训练、及时强化，让学习者更快掌握大数据实战技术。
　　如果想学习大数据技术，可以参考博学谷云计算大数据课程。

大数据面试大数据技术数据库

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据培训有哪些课程？下一篇：科普Spark，什么是Spark？

相关推荐 更多

大数据面试题 Hadoop的联邦机制

大数据学习需要掌握很多技术知识点，包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。今天主要和大家分享一下Hadoop的联邦机制。

15635

2019-07-18 23:40:42

大数据开发大数据面试
大数据对企业的意义是什么？有哪些大数据经典案例？

大数据技术的意义是什么？对于企业而言，可以根据大数据的分析使产品更加符合消费者的需求，根据目标用户特征锁定精准用户群体，同时还可以通过数据制定更好的推广方案，提高有效转化率，也可以帮助企业在危机来临之前展示预警功能，从而降低相应的损失。那有哪些我们知道的大数据经典案例呢？下面我们一起来看一下吧。

11382

2019-07-16 18:21:12

大数据技术
大数据技术就业前景好不好？

大数据技术就业前景好不好？现如今，大数据应用非常广泛，各行各业都开始应用，所以说当前大数据行业真的是人才稀缺尤其是数据分析人才最稀缺。所以让小编跟你说一说，目前大数据行业的大概情况吧。

6833

2020-03-26 22:21:32

大数据技术大数据分析
常用的数据分析方法及案例讲解

常用的数据分析方法有描述统计、信度分析、相关分析、回归分析、聚类分析等。本文将结合实际案例，为大家一一讲解这些数据分析的方法。如果你想了解如何做数据分析，就接着看下去吧~

7506

2020-08-13 16:38:58

大数据技术大数据分析
大数据可视化分析工具常用的有哪些？

企业基础数据才能制定出正确的策略，常用的分析工具有、Tableau、ECharts、Highcharts、魔镜、图表秀等。在大数据时代有价值的商品则是数据，大数据技术为决策提供依据，在政府、企业、科研项目等决策中扮演着重要的角色。

7391

2020-09-24 16:39:22

大数据技术数据分析工具