在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
Hive是建立在Hadoop上的数据仓库基础构架。对于有一定基础的大数据学习者来讲,Hive是必须掌握的核心技术。本文主要带大家来认识一下Hive,了解什么是Hive?为什么要用Hive?如果大家对这些问题好奇,就一起看看接下来的内容吧~

1、什么是Hive?
(1)Hive的定义
Hive一个可以将结构化的数据文件映射为一张数据库表并提供类SQL查询功能的数据仓库工具,而且它是基于Hadoop的。因此,从本质上来看,Hive是将SQL转换为MapReduce程序的工具。因为,比直接用MapReduce开发效率更高,Hive的主要作用就是用来做离线数据分析。
(2)Hive架构

用户接口:包括 CLI 、JDBC/ODBC 、WebGUI 。其中, CLI(command line interface)为 shell 命令行;JDBC/ODBC 是 Hive 的 JAVA 实现,与传统数据库JDBC 类似;WebGUI 是通过浏览器访问 Hive。
元数据存储:通常是存储在关系数据库如 mysql/derby 中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS中,并在随后有 MapReduce 调用执行。
(3)Hive数据模型
Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式。在创建表时指定数据中的分隔符,Hive就可以映射成功,解析数据。Hive中包含以下数据模型:
db:在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹;
table:在hdfs中表现所属db目录下一个文件夹;
external table:数据存放位置可以在 HDFS 任意指定路径;
partition:在hdfs中表现为table目录下的子目录;
bucket:在hdfs中表现为同一个表目录下根据hash散列之后的多个文件。
2、为什么要用Hive?
(1)Hive与传统数据库对比

Hive用于海量数据的离线数据分析。Hive具有sql数据库的外表,但应用场景完全不同,Hive只适合用来做批量数据统计分析。
(2)Hive的优势
Hive利用HDFS存储数据,利用MapReduce查询分析数据。因为直接使用Hadoop MapReduce处理数据,会面临人员学习成本太高的问题,而且MapReduce实现复杂查询逻辑开发难度太大。而使用Hive,操作接口采用类SQL语法,提供快速开发的能力的同时还避免了去写MapReduce,从而减少开发人员的学习成本,功能扩展更加方便。
看到这里,想必大家对于“什么是Hive?为什么要用Hive?”,已经有了一定的了解。如果大家想要更加深入的学习大数据中的核心技术Hive,可以在下方申请免费试学名额,获取免费的大数据在线学习机会~
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
云数据安全之数据加密的要点分析
毫不夸张的说,当下是云计算和大数据的时代,我们的生活和工作都受到了云计算和大数据方方面面的影响,云计算和大数据不仅改变了我们的思维、生产方式,还改变了我们生活和学习方式。然而随之而来的云数据安全问题也是日益凸显,许多用户都遭受了大数据泄露带来的损失。本文就来和大家分析一下云数据安全中数据加密的要点。
8597
2019-10-31 19:21:05
计算机大数据应用技术就业前景怎么样?
计算机大数据应用技术就业前景怎么样?作为目前最为广泛和热门的新兴技术,计算机大数据应用技术的意义不在于存储海量的的数据信息,而在于对这些数据进行专业化处理,从而更好地辅助工作中的各项决策。因此,掌握了计算机大数据应用技术,其就业前景自然广阔明亮无比。关于大数据的更多就业方向选择,我们可以看看以下的具体分析。
15434
2020-01-14 15:33:07
数据科学与机器学习的区别是什么?
数据科学与机器学习的区别:机器学习是人工智能的一个分支,而数据科学是数据清理、准备和分析的学科。人们需要了解每种技术的工作原理,以及它们是如何一起工作的。数据科学是一种实践领域,而机器学习是一组工具和方法论。
7788
2020-05-13 15:36:30
HDFS入门基础学习总结
HDFS全称就是Hadoop分布式文件系统,作为Hadoop的核心组件,它提供了最底层的分布式存储服务。本文整理了HDFS设计目标和HDFS的重要特性等等内容,下面一起来看HDFS入门基础学习总结吧~
6761
2020-06-09 16:19:01
工信部测算到2025年中国大数据产业规模将突破3万亿元
工信部测算到2025年中国大数据产业规模将突破3万亿元,全球互联网、大数据、云计算、数字孪生、元宇宙等数字技术加速创新趋势,探讨数字科技革命和产业变革的新机遇,聚焦大数据与实体经济、社会治理、民生服务、乡村振兴的深度融合,发布一批大数据创新应用场景,探讨共享应用场景创新的价值。
4947
2022-06-09 15:29:53
