在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库的设计大体上可以分为以下几个步骤:概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护。下面我们来看看Hive数仓开发的基本流程。
1.从业务系统获取数据
Sqoop 导入数据库的数据:spoop 可以在 Hive 与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到 Hadoop 的HDFS中,也可以将 HDFS 的数据导进到关系型数据库中。
Flume 采集文本数据:Flume 可以将各类型的文件进行采集,存放入 hdfs中。
Ftp 文件服务器:从文件服务器上下载分析所需的源数据(增量数据、全量数据)。
2.数据存储
数据仓库分层 ods 层、dw 层、da 层:
源数据层 ODS :直接引用外围的数据 没有统一格式化的 不会直接应用使用不利于分析。
数据仓库层 DW :来自于 ODS 要经过 ETL 的过程 格式统一 数据规整 干净清洁。
数据应用层 DA :要去用 DW 层数据真正的数据使用者。
数据集市:也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
3.配置调度系统
4.导出数据&展示
以上就是小编整理的有关大数据面试题之Hive数仓开发的基本流程,都是干货,小伙伴赶紧掌握吧!
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据工程师面试时需要注意的那些致命判断题
大数据工程师属于IT行业里面的高薪岗位,所以企业在招聘的时候不仅仅要考虑他们的专业技能,还要考察大数据工程师对于问题的判断能力,从而保障项目的高效率执行。所以和大家分享一些大数据工程师面试时需要注意的那些致命判断题。
8124
2019-06-27 18:23:44
大数据Hadoop中HDFS 存储的机制?
HDFS即Hadoop分布式文件系统。它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。那大数据中HDFS 存储的机制怎样的呢?
12289
2019-08-14 10:19:54
大数据进阶面试题Storm开源软件
在大数据求职者眼中,Storm肯定是一款高效的开源软件,它主要用于解决数据的实时计算和实时的处理等方面的问题。同时Storm也是大数据进阶面试题的重难点,因此小编整理了一些近些年来比较经典常见有关Storm的面试题,希望对大家有用。
6953
2019-08-15 16:41:39
大数据面试要注意哪些方面?大数据面试准备三大攻略
大数据面试要注意哪些方面?一般来说,求职者要做好自我介绍、面试提问和专业考题三大方面的准备。下面是小编专门为大数据求职者整理的面试攻略,希望对大家找工作有所帮助。
7558
2019-09-08 19:36:29
大数据面试题之分布式资源调度框架Yarn
Yarn作为一个资源管理、任务调度的框架,其重要性不言而喻。尤其是在近些年的大数据面试中,更是面试题的重点知识之一。为了大家在面试的时候,能够准备的更加充分,小编整理了一份有关分布式资源调度框架Yarn的大数据面试题,内容包括Yarn的架构、工作流程、调度器Scheduler。
8000
2019-09-12 11:00:53