在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
进入DATE时代,大数据技术成为互联网发展的核心要素之一。与此同时大数据开发工程师的薪资也成为行业内高薪的代表。想从事大数据开发需要掌握多种核心技术:Hadoop、Hive、Storm、Spark、Scala等等。而且这些技术知识点已经成为大数据工程师进入职场时面试中必备的考点。这里主要和大家分享一下数据仓库工具hive相关的面试题!

1、 Hive 的 join 有几种方式,怎么实现 join 的?
答:有3 种 join 方式:
1)在 reduce 端进行 join,最常用的 join 方式。
Map端的主要工作:为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录。然后用连接字段作为 key,其余部分和新加的标志作为 value,最后进行输出。
reduce 端的主要工作:在 reduce 端以连接字段作为 key 的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录 (在 map 阶段已经打标志)分开,最后进行笛卡尔。
2)在 map 端进行 join,使用场景:一张表十分小、一张表很大。
在提交作业的时候先将小表文件放到该作业的 DistributedCache 中,然后从 DistributeCache 中取出该小表进行 join key / value 解释分割放到内存中(可以放大 Hash Map 等等容器中)。然后扫描大表,看大表中的每条记录的 join key /value 值是否能够在内存中找到相同 join key 的记录,如果有则直接输出结果。
3)SemiJoin,semijoin 就是左边连接是 reducejoin 的一种变种,在 map 端过滤掉一些数据,在网络传输过程中,只传输参与连接的数据,减少了 shuffle的网络传输量,其他和 reduce的思想是一样的。
实现:将小表中参与 join 的 key 单独抽取出来通过 DistributeCache 分发到相关节点,在 map 阶段扫描连接表,将 join key 不在内存 hashset 的纪录过滤掉,让参与 join 的纪录通过 shuffle 传输到 reduce 端进行 join,其他和 reduce join 一样。
2、hive 内部表和外部表的区别?
内部表:建表时会在 hdfs 创建一个表的存储目录,增加分区的时候,会将数据复制到此location下,删除数据的时候,将表的数据和元数据一起删除。
外部表:一般会建立分区,增加分区的时候不会将数据移到此表的 location下,删除数据的时候,只删除了表的元数据信息,表的数据不会删除。
3、 hive 是如何实现分区的?
建表语句:
create table tablename (id) partitioned by (dt string)
增加分区:
alter table tablenname add partition (dt = ‘2016-03-06’)
删除分区:
alter table tablename drop partition (dt = ‘2016-03-06’)
4、 Hive 有哪些方式保存元数据,各有哪些优缺点。
1)存储于 derby 数据库,此方法只能开启一个hive客户端,不推荐使用
2)存储于mysql数据库中,可以多客户端连接,推荐使用。
5、 hive 如何优化?
1)join 优化,尽量将小表放在 join 的左边,如果一个表很小可以采用 mapjoin。
2)排序优化,order by 一个 reduce 效率低,distirbute by +sort by 也可以实现全局排序。
3)使用分区,查询时可减少数据的检索,从而节省时间。
6、 hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别?
TextFile:默认格式,数据不做压缩,磁盘开销大,数据解析开销大
SequenceFile:Hadoop API提供的一种二进制文件支持,使用方便,可分割,可压缩,支持三种压缩,NONE,RECORD,BLOCK。
RCFILE 是一种行列存储相结合的方式。首先,将数据按行分块,保证同一个 record 在同一个块上,避免读一个记录读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。数据加载的时候性能消耗大,但具有较好的压缩比和查询响应。
7、 hive 相对于Oracle来说有那些优点?
1)存储,hive 存储在 hdfs 上,oracle 存储在本地文件系统。
2)扩展性,hive 可以扩展到数千节点,oracle 理论上只可扩展到 100 台左右。
3)单表存储,数据量大 hive 可以分区分桶,oracle 数据量大只能分表。
8、 Hive 的 sort by 和 order by 的区别!
order by 会对输入数据做全局排序,只有一个 reduce,数据量较大时,很慢。
sort by 不是全局排序,只能保证每个 reduce 有序,不能保证全局有序,需设置mapred.reduce.tasks>1。
9、博学谷大数据课程亮点有哪些?
1、新增当下大数据应用技术热点,使课程更全涵盖大数据体系中的技术点,包括但不限于Linux、Zookeeper、Hadoop、Yam、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Soark RDD、Spark SQL、Soark Streaming、Sqoop、Flume、CDH、Scala、Hbase、Flink、机器学习等,将离线数据分析、实时数据分析和内存数据计算中的技术点全面覆盖。
2、将晦涩难懂的理论一通俗易懂的方式进行讲解,然后通过深入分析源码让学员深入理解其内在原理,在照顾基础薄弱学习者的同时又融入核心技术点加以实战,夯实了基础又快速储备了丰富的实战经验。
3、此课程涵盖网站点击流日志分析系统、统一监控告警系统、用户画像、Flume 实战案例、Azkaban实战案例、Hbase实战案例和Hbase整合读写数据等源于企业中的真实项目和案例,以项目/案例驱动教学,将真实实例贯穿到知识点中,学中练、练中学、及时训练、及时强化,让学习者更快掌握大数据实战技术。
如果想学习大数据技术,可以参考博学谷云计算大数据课程。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
了解前沿技术:大数据经典应用案例分享
目前国内大部分代行的企业已经将大数据充分的运用到原来的业务之中,对于哪些目前还在互联网转型甚至没有实现互联网+转型的企业来说,能否尽快布局大数据成为企业实现快速发展的核心问题。因此我们需要跟多的了解大数据到底都可以做什么。本文为大家分享了部分大数据应用成功案例。对于企业或者开发者都可以从中找到与自己实际工作业务相关的拓展思路。
9655
2019-07-22 16:28:07
什么是大数据分析?大数据分析概念
大数据分析指对规模巨大的数据进行分析。大数据特点 数据量大、速度快、类型多、价值、真实性。随着大数据的发展,大数据分析应运而生。数据分析让人们对数据产生更加优质的诠释,而具有预知意义的分析可以让分析员根据可视化分析和数据分析后的结果做出一些预测性的推断。
6347
2020-04-27 15:15:39
什么是大数据系统存储及管理?
根据数据存储和管理的内容范围,大数据存储及管理技术需要重点研究如何解决大数据的可存储、可表示、可处理、可靠性及有效传输等。需要解决:海量文件的存储与管理,海量小文件的传输、索引和管理,海量大文件的分块与存储,系统可扩展性与可靠性的问题。
6864
2020-12-01 14:32:47
常见的实用型数据可视化工具有哪些?
数据可视化工具介绍,由于每个人的的技术水平和偏好不同这里分类介绍。零编程类:操作简单,无需编程基础,适合新手小白做一些基础性的图表可视化;开发工具类专业化的可视化工具,个性化程度高,适合专业的开发者或者工程师;专业图表类:针对性制作地图、时间轴、金融数据可视化工具。接下来我们就一起来看看吧
4282
2021-01-28 10:38:20
数据仓库、数据湖、智能湖仓分别是什么?
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合;数据湖,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的;强大的数据湖及其配套的专用构建数据服务体系,智能湖仓称为架构。
4190
2021-05-28 14:54:10
