在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

博学谷 > 资讯

原创如何进入大数据领域，学习路线是什么？

发布时间：2022-08-26 18:02:21 浏览 4983 来源：博学谷作者：小谷

想要从事大数据技术开发工作，请问要怎么做，路线是什么？从哪里开始学？学哪些？

废话不多说，直接上干货！

大数据本质上是海量数据。

以往的数据开发，需要一定的Java基础和工作经验，门槛高，入门难。

如果零基础入门数据开发行业的小伙伴，可以从Python语言入手。

Python语言简单易懂，适合零基础入门，在编程语言排名上升最快，能完成数据挖掘、机器学习、实时计算在内的各种大数据集成任务。

等不及的同学可以直接看这个路线图 ：2022Python+大数据学习路线图

https://www.bilibili.com/read/cv11171369

第一阶段：大数据开发入门

MySQL数据库及SQL语法

MySQL可以处理拥有上千万条记录的大型数据库，使用标准的SQL数据语言形式，MySQL可以安装在不同的操作系统，并且提供多种编程语言的操作接口，这些编程语言包括C、C++、Python、Java、Ruby等等。支持多种存储引擎。

SQL就是客户端和MySQL服务器端进行通信和沟通的语言。

https://www.bilibili.com/video/BV1iF411z7Pu

Kettle与BI工具

Kettle作为一个端对端的数据集成平台，其部分特色功能包括：无代码拖拽式构建数据管道、多数据源对接、数据管道可视化、模板化开发数据管道、可视化计划任务、深度Hadoop支持、数据任务下压Spark集群、数据挖掘与机器学习支持。

https://www.bilibili.com/video/BV1CT4y157KE?p=24

Python与数据库交互

实际的生产任务中，数据几乎全部存在与数据库中，因此，与数据库的交互成为一件难以避免的事情。想要在Python代码中和mysql数据库进行交互，需要借助一个第三方的模块“pymysql”。

https://www.bilibili.com/video/BV1BP4y1E7WY

第二阶段：大数据核心基础

Linux

Linux作为操作系统，本身是为了管理内存，调度进程，处理网络协议栈等等。而大数据的发展是基于开源软件的平台，大数据的分布式集群( Hadoop，Spark )都是搭建在多台 Linux 系统上，对集群的执行命令都是在 Linux 终端窗口输入的。据Linux基金会的研究，86%的企业已经使用Linux操作系统进行大数据平台的构建。Linux占据优势。

P6-p17

https://www.bilibili.com/video/BV1CU4y1N7Sh?p=6

Hadoop基础

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。它很擅长存储大量的半结构化的数据集。也非常擅长分布式计算——快速地跨多台机器处理大型数据集合。Hadoop的框架最核心的设计就是：HDFS和MapReduce.HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

Hadoop，p18-p50

https://www.bilibili.com/video/BV1CU4y1N7Sh?p=18

MapReduce和Hadoop是相互独立的，实际上又能相互配合工作得很好。MapReduce是处理大量半结构化数据集合的编程模型。

大数据开发Hive基础

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。Hive十分适合对数据仓库进行统计分析。

Hive视频课程，P51-p83

https://www.bilibili.com/video/BV1CU4y1N7Sh?p=51

第三阶段：千亿级数仓技术

企业级在线教育项目实战（Hive数仓项目完整流程）

以真实项目为驱动，学习离线数仓技术。建立集团数据仓库，统一集团数据中心，把分散的业务数据集中存储和处理；从需求调研、设计、版本控制、研发、测试到落地上线，涵盖了项目的完整工序；挖掘分析海量用户行为数据，定制多维数据集合，形成数据集市，供各个场景主题使用。

https://www.bilibili.com/video/BV1ef4y1B7KX

第四阶段：PB内存计算

Python编程基础+进阶

Python是基于ABC语言的发展来的，Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言，随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。

Python 语言的语法非常简洁明了，即便是非软件专业的初学者，也很容易上手。

和其它编程语言相比，实现同一个功能，Python 语言的实现代码往往是最短的。

https://www.bilibili.com/video/BV1o4411M71o

https://www.bilibili.com/video/BV1Ex411x7Xn

Spark技术栈

Spark是大数据体系的明星产品，是一款高性能的分布式内存迭代计算框架，可以处理海量规模的数据。本课程基于Python语言学习Spark3.2开发，课程的讲解注重理论联系实际，高效快捷，深入浅出，让初学者也能快速掌握。让有经验的工程师也能有所收获。

https://www.bilibili.com/video/BV1ui4y1V7Cf

https://www.bilibili.com/video/BV1Jq4y1z7VP

https://www.bilibili.com/video/BV1W54y1B7XF

大数据Flink技术栈

Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了诸多更高抽象层的API以便用户编写分布式任务。Flink也可以方便地和Hadoop生态圈中其他项目集成，例如Flink可以读取存储在HDFS或HBase中的静态数据，以Kafka作为流式的数据源，直接重用MapReduce或Storm代码，或是通过YARN申请集群资源等。

https://www.bilibili.com/video/BV1xe411W7vx

Spark离线数仓工业项目实战

通过大数据技术架构，解决工业物联网制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于Hive数仓分层来存储各个业务指标数据，基于sparkSQL做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。

https://www.bilibili.com/video/BV1Tv411B7Cf

学习路线专业技能

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据的薪资怎么样？想学大数据了？下一篇：博学谷狂野大数据学习多长时间？

相关推荐 更多

大数据Hadoop中HDFS 存储的机制？

HDFS即Hadoop分布式文件系统。它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。那大数据中HDFS 存储的机制怎样的呢？

17497

2019-08-14 10:19:54

大数据开发大数据面试专业技能
Hive数据仓库层级划分介绍

本文就Hive数据仓库层级划分进行详细介绍，全文大概分为数据仓库的四个操作和四逻辑架构层次两个部分。这些都是Hive数据仓库的基础知识，大家一定要掌握哦！

13081

2019-08-09 19:31:31

大数据入门数据库专业技能
学大数据学得想哭？大数据真有这么难学吗？

大数据的火爆使得不少人纷纷投入到大数据开发学习中，然而近来也会有这样一种声音在网上：大数据太难学了，学大数据学得想哭。其实学习本来就没那么简单，但是如果努力了还学不好大数据，就应该好好反思自己的学习方法是不是出了问题。下面小编就带大家看看，大数据真有这么难学吗？

24901

2019-08-16 11:08:35

大数据培训IT在线培训班零基础入门
大数据面试要注意哪些方面？大数据面试准备三大攻略

大数据面试要注意哪些方面？一般来说，求职者要做好自我介绍、面试提问和专业考题三大方面的准备。下面是小编专门为大数据求职者整理的面试攻略，希望对大家找工作有所帮助。

9974

2019-09-08 19:36:29

大数据面试专业技能
在线学习大数据效果好不好？

如今，大数据成为了市场上最热门的求职领域之一。伴随着巨大的市场需求，大数据培训机构也如雨后春笋，让人眼花缭乱。除了线下的面授课程，在线学习也成为了许多学习者会考虑的培训方式。那么，在线学习大数据效果到底好不好呢？下面我们以博学谷平台的大数据课程为例，为大家好好介绍一下大数据课程的在线学习流程。

7038

2020-05-18 16:54:49

大数据课程学习路线