在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
对于大数据的学习者来讲,深入理解数据仓库是很重要的。本文将对数据仓库的基本概念进行讲解,大家可以在看完数据仓库的概念、主要特征以及分层架构之后,真正理解数据仓库是什么。
1、数据仓库的概念
数据仓库,全称是Data Warehouse,简写DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。它出于分析性报告和决策支持目的而创建。正因为它叫 “仓库”,而不是叫“工厂”。所以数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据。数据来源于外部,并且开放给外部应用。
2、数据仓库的主要特征
(1)面向主题
传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
(2)集成性
通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保证了数据仓库内的数据关于整个企业的一致性。数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步。
(4)时变性
数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。
3、数据仓库分层架构
按照数据流入流出的过程,数据仓库架构可分为三层——源数据、数据仓库、数据应用。数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。
(1)源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。
(2)数据仓库层(DW):也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。
(3)数据应用层(DA或APP):前端应用直接读取的数据源;根据报表、专题分析需求而计算生成的数据。
以上就是数据仓库是什么的基本概念讲解,想要了解更多关于大数据的干货内容,尽在博学谷资讯大数据栏目~
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
分析Nginx访问日志需要学什么?
需要掌握Spark SQL核心知识,分析Nginx访问日志掌握SparkSQL数据分析能力,SparkSQL调优方式及其核心思想。通过思维导图的方式对学习课程所涉及的知识。
3826
2020-02-04 14:13:42
ETL数据工程师职业发展怎么样?
随着大数据发展的逐渐落地,其技术也被广泛的应用于各个领域,大数据工程师也因此成为了目前最具潜力的热门岗位。说到大数据工程师就不得不提及ETL数据工程师,相信大家对这个职位或多或少都有所了解。但是对于ETL数据工程师的具体工作内容、能力要求和职业发展规划大家又了解多少呢?本文就来和大家好好谈谈ETL数据工程师的这一岗位,希望给想从事这个行业的小伙伴一点方向的指引。
6797
2020-02-25 18:28:52
数据科学的发展历程
如今,数据科学可以说是一个十分火爆的领域,我们可以看到数据科学在各行各业都得到了广泛的应用。虽然数据科学在近几年发展得如此迅猛,但是数据科学的核心技术其实早在很久以前就已经提出来了。比如数据挖掘、Hadoop、深度学习、神经网络、数据可视化、强化学习和云计算等等技术都是推动数据科学发展进程的核心手段,下面我们一起来看看吧!
7308
2020-03-26 15:36:30
常用的数据分析方法及案例讲解
常用的数据分析方法有描述统计、信度分析、相关分析、回归分析、聚类分析等。本文将结合实际案例,为大家一一讲解这些数据分析的方法。如果你想了解如何做数据分析,就接着看下去吧~
4172
2020-08-13 16:38:58
大数据之亚秒级实时计算技术学哪些内容?
⼤数据实时计算中的核⼼框架阶段Flink,Flink在流式上的性能、容错等优势,在全球范围内快速圈粉。当今的⼤数据开发学习Flink是⾮常有必要的。学⽣通过本阶段的学习能够学习到Flink计算引擎在实时计算上的巨⼤优势,将来在企业中能够合理地运⽤Flink来解决实际的业务计算问题。
4106
2022-09-29 17:35:17