博学谷 > 资讯 > 大数据 > 大数据面试题 Hive数仓开发的基本流程

原创 大数据面试题 Hive数仓开发的基本流程

发布时间:2019-07-15 16:07:11 浏览 3990 来源:博学谷资讯 作者:照照

    数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库的设计大体上可以分为以下几个步骤:概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护。下面我们来看看Hive数仓开发的基本流程。

     

    <a href = 'https://www.boxuegu.com/news/data/' target='_blank' style='color: #466de2;font-size: 14px'>大数据</a>面试题 Hive数仓开发的基本流程

     

     

    1.从业务系统获取数据

     

    Sqoop 导入数据库的数据:spoop 可以在 Hive 与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到 HadoopHDFS中,也可以将 HDFS 的数据导进到关系型数据库中。

     

    Flume 采集文本数据:Flume 可以将各类型的文件进行采集,存放入 hdfs中。

     

    Ftp 文件服务器:从文件服务器上下载分析所需的源数据(增量数据、全量数据)。

     

    2.数据存储

     

    数据仓库分层 ods 层、dw 层、da 层:

     

    源数据层 ODS :直接引用外围的数据 没有统一格式化的 不会直接应用使用不利于分析。

     

    数据仓库层 DW :来自于 ODS 要经过 ETL 的过程 格式统一 数据规整 干净清洁。

     

    数据应用层 DA :要去用 DW 层数据真正的数据使用者。

     

    数据集市:也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。

     

    3.配置调度系统

     

    4.导出数据&展示

     

    以上就是小编整理的有关大数据面试题之Hive数仓开发的基本流程,都是干货,小伙伴赶紧掌握吧!

    申请免费试学名额    

在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!

领取成功
领取失败
上一篇:揭秘 数据分析究竟在企业经营中有什么实际作用? 下一篇:大数据和区块链异同分析

相关推荐 更多

最新文章

扫描二维码,回复"大数据"获取20G资料包