• 在线客服

  • 扫描二维码
    下载博学谷APP

  • 扫描二维码
    关注博学谷微信公众号

  • 意见反馈

原创 大数据技术分享:Hive的静态分区与动态分区

发布时间:2019-06-21 18:18:25 浏览 10292 来源:博学谷资讯 作者:枫调

      Hive是机遇Hadoop的一个数据仓库工具,它的学习成本低,可以通过类SQL语句快速实现简单的MAPReduce统计,十分适合数据仓库的统计。在Hive学习过程中必定会接触到分区,这是Hive存放数据的一种形式。查询数据时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描其他不关心的分区,快速定位,提高查询效率。分区分为静态分区和动态分区两种形式。

     

    大数据技术分享:Hive的静态分区与动态分区


      静态分区


      若分区的值是确定的,那么称为静态分区。新增分区或者是加载分区数据时,已经指定分区名。
      create table if not exists day_part1(
      uid int,
      uname string
      )
      partitioned by(year int,month int)
      row format delimited fields terminated by '\t';
      ##加载数据指定分区
      load data local inpath '/root/Desktop/student.txt' into table day_part1 partition(year=2017,month=04);
      ##新增分区指定分区名
      alter table day_part1 add partition(year=2017,month=1) partition(year=2016,month=12);


      动态分区


      分区的值是非确定的,由输入数据来确定
      1、动态分区的相关属性:
      hive.exec.dynamic.partition=true :是否允许动态分区
      hive.exec.dynamic.partition.mode=strict :分区模式设置
      strict:最少需要有一个是静态分区
      nostrict:可以全部是动态分区
      hive.exec.max.dynamic.partitions=1000 :允许动态分区的最大数量
      hive.exec.max.dynamic.partitions.pernode =100 :单个节点上的mapper/reducer允许创建的最大分区
      2、动态分区的操作
      ##创建临时表
      create table if not exists tmp
      (uid int,
      commentid bigint,
      recommentid bigint,
      year int,
      month int,
      day int)
      row format delimited fields terminated by '\t';
      ##加载数据
      load data local inpath '/root/Desktop/comm' into table tmp;
      ##创建动态分区表
      create table if not exists dyp1
      (uid int,
      commentid bigint,
      recommentid bigint)
      partitioned by(year int,month int,day int)
      row format delimited fields terminated by '\t';
      ##严格模式
      insert into table dyp1 partition(year=2016,month,day)
      select uid,commentid,recommentid,month,day from tmp;
      ##非严格模式
      ##设置非严格模式动态分区
      set hive.exec.dynamic.partition.mode=nostrict;
      ##创建动态分区表
      create table if not exists dyp2
      (uid int,
      commentid bigint,
      recommentid bigint)
      partitioned by(year int,month int,day int)
      row format delimited fields terminated by '\t';
      ##为非严格模式动态分区加载数据
      insert into table dyp2 partition(year,month,day)
      select uid,commentid,recommentid,year,month,day from tmp;


      分区注意细节


      1、尽量不要用动态分区,因为动态分区的时候,将会为每一个分区分配reducer数量,当分区数量多的时候,reducer数量将会增加,对服务器是一种灾难。
      2、动态分区和静态分区的区别,静态分区不管有没有数据都将会创建该分区,动态分区是有结果集将创建,否则不创建。
      3、hive动态分区的严格模式和hive提供的hive.mapred.mode的严格模式。
      hive提供我们一个严格模式:为了阻止用户不小心提交恶意hql
      hive.mapred.mode=nostrict : strict
      如果该模式值为strict,将会阻止以下三种查询:
      (1)、对分区表查询,where中过滤字段不是分区字段。
      (2)、笛卡尔积join查询,join查询语句,不带on条件或者where条件。
      (3)、对order by查询,有order by的查询不带limit语句。


      以上就是和大家分享大数据技术分享:Hive的静态分区与动态分区。在大数据学习过程中需要掌握多种应用技术,包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等核心技能。充分掌握才能快速实现大数据就业的目标。想学习大数据技术,可以通过博学谷大数据课程。因为大数据是在Java技术的基础上实现的,所以学习大数据技术之前最好具备java基础。文章部分内容整合自网络,仅供参考阅读。

    申请免费试学名额    

在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!

上一篇: 数据挖掘、数据分析以及大数据之间的区别有哪些? 下一篇: 大数据思维到底是什么?

相关推荐 更多

热门文章

  • 前端是什么
  • 前端开发的工作职责
  • 前端开发需要会什么?先掌握这三大核心关键技术
  • 前端开发的工作方向有哪些?
  • 简历加分-4步写出HR想要的简历
  • 程序员如何突击面试?两大招带你拿下面试官
  • 程序员面试技巧
  • 架构师的厉害之处竟然是这……
  • 架构师书籍推荐
  • 懂了这些,才能成为架构师
  • 查看更多

扫描二维码,了解更多信息

博学谷二维码