在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
数据仓库、数据湖、智能湖仓分别是什么?数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合;数据湖,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的;强大的数据湖及其配套的专用构建数据服务体系,智能湖仓称为架构。
作为程序员写的大多数商业项目,往往都需要用到大量的数据。计算机的内存可以实现数据的快速存储和访问。但内存的空间是有限的也无法长期保存有用的数据。对于那些大量的,需要长期使用的数据,需要对它们进行持久的、规范化的存储,于是就有了数据库(DataBase)。
市场上常用的数据库有很多种,包括像MySQL、Oracle这样的关系型数据库,也包括Redis,HBase这样的非关系型数据库。无论是哪一种数据库,所存储的都是结构化数据主要应用的领域是联机事务处理,也就是程序员所熟悉的增删改查业务。
满足了业务需求数据库当中的数据不断积累变得越来越丰富。这些数据不但可以支撑业务的运行也可以用于生成商业报表进行数据分析提供有价值的决策参考。这些数据分析和生成报表的处理操作被称为联机分析处理。
但传统数据库擅长的是快速地对小规模数据进行增删改查,并不擅长大规模数据的快速读取。于是人们发明了一种全新的数据存储方式,并把原本分散在不同项目当中的业务数据进行抽取、清洗、转换、加载,最终汇总成为一系列面向主题的数据集合,按照全新的方式进行存储。这种全新的存储方式被称为数据仓库;把数据进行抽取、清洗、转换、加载的过程,被称为ETL。
数据仓库当中存储的数据,同样是结构化数据。数据库用于业务处理,数据仓库用于数据分析一时间大家都使用得十分愉快。但随着大数据和机器学习技术的不断发展,人们发现不仅是结构化的数据具有分析价值,许多非结构化的数据,例如用户日志、电子邮件、PDF等等,同样具有可观的分析和学习价值。
这些数据如果统一按照ETL的方式进行加工处理不太现实,索性把它们按照原始格式汇总在一起。这样汇总起来的庞大集合,被存储在了数据湖(Data Lake)当中。
数据湖当中的数据可谓是包罗万象:结构化的,有各种关系型数据库的行和列;半结构化的,有JSON、XML、CSV;非结构化的,有电子邮件、PDF、各种文档;甚至还有杂七杂八的二进制文件,比如图片、视频、音频。
通过数据湖这个统一的数据管理节点,企业可以利用更加丰富多样的数据,为商业智能、机器学习等方向赋能。在现实的企业项目当中,所需要的不只是统一存储的数据湖也需要各种各样专门构建的存储方案,由此为特定应用场景提供必要的性能、规模与成本优势。
如仍然需要数据仓库,适合针对结构化数据通过复杂查询快速获取结果;需要Lucene或Elastic Search这样的全文检索引擎,从而实现快速搜索并分析日志数据,借此监控生产系统的运行状态。
通过这些多样的存储方案可以高效低成本地进行数据分析、机器学习、大数据处理、日志分析等工作。
为了从数据湖及专门构建的存储中获取最大收益,企业希望在不同系统之间轻松移动数据。比如有些情况下,客户希望将数据湖当中的部分数据移至数据仓库、日志系统等节点。将这种情况,归纳为由内向外的数据移动操作。
还有些情况下,企业希望将业务数据从关系型数据库和非关系型数据库移动到数据湖内。将这种情况,归纳为由外向内的数据移动操作。企业还可能要求将数据在不同的专用数据存储方案之间往来移动,比如将数据仓库内的数据提供给机器学习系统。将这种情况归纳为围绕边界的数据移动操作:
快速构建起可扩展的数据湖;丰富而且功能强大的专门构建的数据服务集合,这些数据服务可以为交互式仪表板与日志分析等提供必要的性能支持;在数据湖及各专门构建的数据服务之间实现数据的无缝化移动;通过统一方式加以保护、监控与管理,保证数据访问活动的合规性;以低成本方式扩展系统保证不对性能产生负面影响。
将这样一种强大的数据湖及其配套的专用构建数据服务体系,称为智能湖仓(Lake House)架构。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
经典数据分析应用介绍
大数据时代的到来,促使互联网更加高速的发展。也为互联网创造了更多的岗位。我们耳熟能详的就是大数据在电商平台、搜索平台的应用,通过大数据分析,为我们提供了更加便利的服务。那还有哪些景点的数据分析应用案例呢?
7912
2019-07-01 19:04:24
大数据技术就业前景好不好?
大数据技术就业前景好不好?现如今,大数据应用非常广泛,各行各业都开始应用,所以说当前大数据行业真的是人才稀缺尤其是数据分析人才最稀缺。所以让小编跟你说一说,目前大数据行业的大概情况吧。
5246
2020-03-26 22:21:32
大数据的定义和概念是什么?一文带你认识大数据
如今,大数据无处不在,它被广泛地应用到各个领域中。似乎我们对大数据已经并不陌生了,但是关于大数据的定义和概念,相信没几个人能够说清楚。那么,当我们在谈大数据的时候到底在谈什么呢?本文就来用一篇文章带大家彻底认识大数据,包括大数据的定义、特点、应用场景以及和云计算的关系。下面就一起来看看吧!
23918
2020-05-14 16:25:29
2021年大数据行业发展前景及岗位方向如何?
中国大数据行业的发展依然呈稳步上升趋势,大数据总体发展水平较好在各行业都有应用,其中金融大数据、政务大数据的应用水平高,同时交通、电信、商贸、医疗、教育、旅游等行业大数据的发展水平也有显着提升。
5565
2021-03-04 16:37:45
SaaS平台数据表单组件设计技巧分享
数据表单方法:固定表头、固定侧栏、自定义栏、分页器、过滤器、数据排序、多选项同时操作、简单且简约、普通的字体样式、项目链接、鼠标悬停设计指南,为大家提供有关数据表单设计的实用性建议。在实际的数据表单设计中还需要根据产品要求和用户目标进行相应的调整。
5133
2021-05-11 13:59:51