在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
Hive是建立在Hadoop上的数据仓库基础构架。对于有一定基础的大数据学习者来讲,Hive是必须掌握的核心技术。本文主要带大家来认识一下Hive,了解什么是Hive?为什么要用Hive?如果大家对这些问题好奇,就一起看看接下来的内容吧~

1、什么是Hive?
(1)Hive的定义
Hive一个可以将结构化的数据文件映射为一张数据库表并提供类SQL查询功能的数据仓库工具,而且它是基于Hadoop的。因此,从本质上来看,Hive是将SQL转换为MapReduce程序的工具。因为,比直接用MapReduce开发效率更高,Hive的主要作用就是用来做离线数据分析。
(2)Hive架构

用户接口:包括 CLI 、JDBC/ODBC 、WebGUI 。其中, CLI(command line interface)为 shell 命令行;JDBC/ODBC 是 Hive 的 JAVA 实现,与传统数据库JDBC 类似;WebGUI 是通过浏览器访问 Hive。
元数据存储:通常是存储在关系数据库如 mysql/derby 中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS中,并在随后有 MapReduce 调用执行。
(3)Hive数据模型
Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式。在创建表时指定数据中的分隔符,Hive就可以映射成功,解析数据。Hive中包含以下数据模型:
db:在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹;
table:在hdfs中表现所属db目录下一个文件夹;
external table:数据存放位置可以在 HDFS 任意指定路径;
partition:在hdfs中表现为table目录下的子目录;
bucket:在hdfs中表现为同一个表目录下根据hash散列之后的多个文件。
2、为什么要用Hive?
(1)Hive与传统数据库对比

Hive用于海量数据的离线数据分析。Hive具有sql数据库的外表,但应用场景完全不同,Hive只适合用来做批量数据统计分析。
(2)Hive的优势
Hive利用HDFS存储数据,利用MapReduce查询分析数据。因为直接使用Hadoop MapReduce处理数据,会面临人员学习成本太高的问题,而且MapReduce实现复杂查询逻辑开发难度太大。而使用Hive,操作接口采用类SQL语法,提供快速开发的能力的同时还避免了去写MapReduce,从而减少开发人员的学习成本,功能扩展更加方便。
看到这里,想必大家对于“什么是Hive?为什么要用Hive?”,已经有了一定的了解。如果大家想要更加深入的学习大数据中的核心技术Hive,可以在下方申请免费试学名额,获取免费的大数据在线学习机会~
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
Hive数据仓库层级划分介绍
本文就Hive数据仓库层级划分进行详细介绍,全文大概分为数据仓库的四个操作和四逻辑架构层次两个部分。这些都是Hive数据仓库的基础知识,大家一定要掌握哦!
12061
2019-08-09 19:31:31
ETL工程师是干什么的?ETL工程师工作内容介绍
随着大数据时代的来临,ETL工程师逐渐出现在大众的视野中,那么ETL工程师是干什么的呢?直白一点说,ETL工程师又叫数据库工程师,需要掌握各种流行的编程语言,每天的工作就是和数据库打交道,下面详细介绍一下ETL工程师的工作内容,以便于大家进一步了解这个职业。
59832
2019-09-15 12:34:13
2020年大数据发展前景如何?
在2020年将看到越来越多的组织利用对象存储从非结构化数据创建结构化/标记数据,从而允许使用元数据来理解人工智能和机器工作负载生成数据。当数据变得足够大时,就会施加类似引力的力,使其难以移动,同时还可以吸引更多数据。
6610
2020-02-05 14:40:18
数据科学的发展历程
如今,数据科学可以说是一个十分火爆的领域,我们可以看到数据科学在各行各业都得到了广泛的应用。虽然数据科学在近几年发展得如此迅猛,但是数据科学的核心技术其实早在很久以前就已经提出来了。比如数据挖掘、Hadoop、深度学习、神经网络、数据可视化、强化学习和云计算等等技术都是推动数据科学发展进程的核心手段,下面我们一起来看看吧!
10328
2020-03-26 15:36:30
10月数据库排行榜出炉,火速围观!
十月份的数据库榜单出炉啦!DB-Engines最近发布了2021年10月份的数据库排名,网站是根据数据库管理系统当前的流行程度进行排名,排名每月更新一次。这份榜单分析主要为数据库相关从业人员提供一个技术方向的参考,其中数据库排名情况并非依据产品市场占有率等因素。
4472
2021-10-19 18:27:08
热门文章
- 前端是什么
- 前端开发的工作职责
- 前端开发需要会什么?先掌握这三大核心关键技术
- 前端开发的工作方向有哪些?
- 简历加分-4步写出HR想要的简历
- 程序员如何突击面试?两大招带你拿下面试官
- 程序员面试技巧
- 架构师的厉害之处竟然是这……
- 架构师书籍推荐
- 懂了这些,才能成为架构师 查看更多
扫描二维码,了解更多信息
