• 2022.01.08

    上课日期

  • 180

    服务期

  • 长期有效

    有效期

课程参数
有回放
直播结束后,会有回放视频提供
教学服务
直播串讲
循环+专项直播,带你梳理知识体系,让学习过程更顺畅。
就业服务
一对一职业规划,就业指导,为你高薪就业保驾护航。
课程更新
在服务期内,如果课程有更新,你可以享受更新后的课程内容。

《狂野大数据》是传智教育旗下博学谷品牌推出的,针对有IT行业经验人员的大数据技术体系在职提升课。
课程包含完整的大数据体系中常用的组件和技术,内容丰富有深度。场景式教学、真·实战项目以及贴合企业实际需求的内容编排,确保教学质量和学员的吸收效果。 同时固定周期直播+视频回看的授课方式,满足了学习时间的灵活性。指定城市月薪不达15K或18K全额退还学费的保障,让您的学习无后顾之忧。

学完收获 :
熟练使用DS、Oozie、AirFlow等任务调度工具,完成大数据任务调度
熟悉Linux基本操作,完成分布式虚拟机搭建任务
了解数据仓库开发从需求沟通、标签定义、编码开发、整个流程
能够掌握Python语言基础,利用Python语言完成常见编程任务
能够掌握Pandas数据处理和数据分析的工作
能够掌握Java语言基础,利用Java完成MapReduce编程,Flink任务编程
熟练掌握Hadoop生态体系,掌握MapReduce原理及优化技巧
熟悉掌握Spark生态技术栈,利用SparkCore基础数据处理
能够使用SparkSQL完成大数据数据处理及统计分析
能够掌握Hive基础内容,利用HiveSQL完成基础数据仓库构建
能够利用Spark On Hive完成企业级离线数据处理及统计工作
熟练Mysql数据库,有使用一种ETL方式经验优先
完成Spark/Hadoop/HBase/Kafka/Flink等组件的搭建;
能够基于Flink进行实时分析和离线分析,
掌握Flink核心4大基石
能够基于FlinkSQL完成常见大数据统计分析任务
能够使用Hbase完成大数据异构数据存储
能够掌握Kafka消息队列基础使用
能够掌握Kafka和Flume对接完成实时数据采集工作
熟练使用FineBi等BI工具完成数据展示任务

★ 亮点1
深技术 助就业
贴合企业数字化用人需求,打造学完即上岗的高薪人才
★ 亮点2
真场景 多行业
多行业多项目,从容应对
企业真实业务场景
★ 亮点3
深技术 严保障
百人教研团队,支撑科研
升级更新
阶段一 大数据的专属操作系统
| Linux操作系统
1. Linux虚拟化环境安装、2.快照、3.快速备份、4.虚拟环境还原、5.Linux终端远程连接、6.快速备份、7.Linux文件 系统、8.Linux权限管理、9.Linux网络管理、10.文本处理指令。
| 操作系统编程
1. shell解释器、2.shell脚本执行、3.shell数据类型、4.shell变量、5.shell字符串、6.shell算术运算符、7.shell流程控制、8. Shell函数、9. Shell数组、10.shell中select、11.shell文件加载。
| 大数据集群基建
1.网络、2.域名映射、3.免密认证、4.时间服务器同步、5.基础应用平台。
| 分布式协调服务
1. ZK集群部署、2. 存储模型、3. SHELL/Java客户端操作、4. 监听机制、5. 选举机制。

学完后具备如下能力: 1. 能够熟练使用Linux系统;2. 能够使用Linux命令来管理操作磁盘、权限、网络等;3. 能够通过基于SHELL脚本编写程序;4. 能够通过脚本控制程序自动化执行;5. 掌握分布式服务协调系统原理并应用;6. 掌握大数据常用操作系统管理、运维能力;

阶段二 殿堂级开源大数据框架
| 环境搭建
1.大数据导论、2.配置网络、3.域名映射、4.免密认证、5.时间服务器同步、6.基础应用平台、7.构建分布式环境、8.benchmark性能测试
| 高吞吐下的分布式存储
1.客户端操作(Java、SHELL、RESTful)、2.文件存储权限管理、3.集群架构、4.机架感知、5.分区副本机制、6.分布式存储原理、7.大批量写、8.大批量读
| 元数据管理
1. NameNode、2. SecondaryNameNode元数据管理策略、3. 元数据存储机制
| 文件管理
1. archive、 2. trash、 3. snapshot
| 分布式计算引擎先驱
1.分治编程思想、2.分布式计算编程模型、3.分区与并行度、4.排序与序列化、5.自定义分组、6.分布式计算运行原理、7.分布式计算编程实战、8.分布式计算性能调优
| 分布式资源调度
1.集群架构、2.资源角度管理、3.分布式应用执行原理、4.资源调度策略、5.队列调度、6.容量调度、7.公平调度、8.参数调优、9.高可用HA、10.联邦

学完后具备如下能力: 1,掌握集群的环境准备、搭建能力2,掌握HDFS的使用3,掌握基于HDFS编程4,理解MapReduce原理和应用场景5,掌握Yarn的原理和组件

阶段三 企业最信赖的TB级大数据数仓
| 数据仓库概论
1.数据仓库介绍、2.特性、3.对比关系型数据库
| 架构与部署
1.Hive数仓架构、2. Hive底层原理、3.Hive数仓搭建
| HQL开发
1.DDL、2.DML、3.DQL、4.分区分桶、5.数据装载
| SHELL客户端
1.hive SHELL、2.beeline(meta store server、hive server2)
| HQL高级函数
1.HiveServer内置函数、2.自定义UDF和UDAF
| 数据存储格式与压缩
1.TEXTFILE、2.ORC、3.PARQUET
| Hive调优
1.常见性能优化、2.explain执行计划详解

学完后具备如下能力:1,掌握Hive的使用2,掌握Hive的架构3,掌握OLAP的设计特点4,能够运用HQL开发ETL5,能够使用各种策略进行Hive调优

阶段四 企业级大数据数仓平台项目实战
| 知行教育项目介绍
还原大型在线教育的大数据平台,建立企业数据仓库,统一企业数据中心,把分散的业务数据集中存储和处理。项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序,项目中挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。
| 主讲知识点
1.基于CM自动部署和配置、2.数据仓库建模、3.离线数仓架构分层、4.使用Git版本控制和CodeReview、5.使用Oozie进行作业调度、6.Hive2的使用和调优、7.Sqoop进行Mysql和Hive的双向海量数据同步、8.使用拉链表完成增量数据的统计分析、9.使用FineReport完成数据可视化

学完后具备如下能力:1,掌握从需求、设计、研发、测试到落地上线的完整项目流程。2,掌握大量教育行业的真实业务逻辑,包含访问、咨询、课程、开班、考勤、直播、成本、教学实施、口碑等阶段,涉及20多个主题,100多个指标。3,掌握大数据量场景下如何优化配置。4,掌握拉链表的具体应用,新增(更新)数据的抽取和分析。5,掌握hive函数的具体应用等。6,掌握基于CM的大数据环境部署和管理。7,掌握数据仓库的核心概念和应用。8,掌握最常用的离线大数据技术:oozie、Sqoop、hive等。9,掌握FineReport可视化。

阶段五 高性能NoSQL存储与秒处理百万级消息的顶级MQ
| 高性能缓存服务Redis
1.Linux部署、2.数据类型、3.SHELL与Java客户端操作、4.持久化(RDB、AOF)、5. 事务、6. 过期策略、7. 内存淘汰策略、8. 架构(主从复制、哨兵、集群)、9.常见问题
| 基于HDFS的低延迟高吞吐KV型NoSQL分布式数据库-HBase
1.集群搭建、2.数据模型SHELL操作、3.SHELL管理操作、4.Java客户端编程、5. HMaster高可用、6.架构、7.陌陌海量存储实战、8.原理、9.批量装载BulkLoad、10.coprocessor、11.跳表、12.二叉搜索树、13.平衡二叉树、14.红黑树、15.B树、16.B+树、17.LSM树、18.布隆过滤器、19.StoreFile结构、20.调优
| 低延迟高吞吐分布式支持海量数据传输的消息队列-Kafka
1.消息队列导论、2.集群部署、3.数据操作、4.Java编程、5.架构、6.原理、7.监控平台

学完后具备如下能力:1,掌握Redis原理及架构2,掌握Hbase原理及架构3,掌握使用HBase存储清洗、转换后的海量数据4,掌握使用HBase结合Phoneix进行优化查询5,掌握Kafka原理及架构,使用KafkaStream完成数据处理

阶段六 全球热门的分布式计算引擎
| Scala函数式编程
1.语言基础、2.开发环境、3.数据类型、4.集合、5.函数式编程、6.class、7.object、8.trait、9.继承、10.样例类、11.模式匹配、12.高阶函数、13.Actor并发编程、14.Akka并发编程
| Spark Core
1. Standalone Standalone HA、2. Spark on YARN、3. 创建RDD、4. RDD函数、5. Checkpoint、6.共享变量、7.内核调度、8.内存管理
| Spark SQL
1. Spark SQL、2.Spark Session、3. DataFrame、4.DataSet、5.UDF、6.UDAF、7.Spark SQL CLI、8.Thrift Server
| Structured Streaming
1. input source、2. streaming queries、3. 整合Kafka、4. Eventtime Window、5. Continuous Processing

学完后具备如下能力: 1,掌握Scala语言基础数据结构2,掌握Scala语言高阶语法特性3,掌握Spark的RDD、DAG、CheckPoint等设计思想4,掌握SparkSQL结构化数据处理,Spark On Hive整合5,掌握SparkStreaming整合Kafka完成实时数据处理6,掌握SparkStreaming偏移量管理及Checkpoint7,掌握Structured Streaming整合多数据源完成实时数据处理

阶段七 Spark大数据项目实战
| 客快物流项目介绍
基于一家大型物流公司研发的智慧物流大数据平台,平台对千亿级数据进行整合、分析、处理,保障业务的顺利进行。本项目以提高运输以及配送效率、减少物流成本为出发点,更有效地满足客户服务要求,并针对数据分析结果,提出具有中观指导意义的解决方案
| 主讲知识点
1.涵盖离线业务和实时业务、2.ClickHouse实时存储和计算引擎、 3.Kudu + Impala准实时分析系统、4.基于Docker搭建异构数据源、5.Spark生态圈核心技术(Spark、Spark SQL、Structured Streaming)、6.ELK全文检索、7.Spring Cloud数据微服务开发、8.实时监控地图开发、9.存储和计算性能调优、10.还原企业搭建大数据平台的完整过程

学完后具备如下能力: 1.掌握Docker环境部署、管理操作2.掌握基于Oracle + MySQL异构数据源数据处理技术3.掌握基于Oracle Golden Gate以及Canal的实时采集技术4.掌握Kudu + Spark的快速离线数据处理、分析技术5.掌握Kudu + Impala即席数据分析技术6.掌握基于ClickHouse高性能存储、计算引擎技术7.掌握基于ELK的全文检索技术8.掌握Kudu、Spark的调优能力

阶段八 性能之巅——实时计算高端玩家
| Flink基础
1.环境搭建部署与快速入门、导论(官方介绍/组件栈/四大基石/应用场景)、2.集群部署、3.API开发、4.打包部署、5.集群角色、6.执行流程、7.DataFlow、8.运行时组件、9.执行图
| Flink Stream
1. source、2. transformation、3. sink
| 高级特性
1. window(滑动窗口、滚动窗口、会话窗口)、2. time与watermark、3.状态管理、4.容错机制、5.checkpoint、6.savepoint、7.状态恢复与重启、8.end-to-end Exactly-Once、9.异步IO、10.Streaming File Sink
| Table与SQL
1. Table API与SQL介绍、2.流处理案例、3.FlinkSQL常用算子

学完后具备如下能力: 1.掌握基于Flink进行海量数据集的实时和离线数据处理、分析2.掌握基于Flink的多流并行处理技术3.掌握Flink中的事件时间窗口计算

阶段九 实时大数据项目实战
| 今日证券项目介绍
本阶段为大数据体系中实时数据处理方向的项目实战阶段。近些年来,众多企业开始进行数字化转型,越来越多的业务直接依赖于大数据技术的支撑。企业对大数据技术的时效性要求也越来越高,很多企业都开始启动实时大数据项目,以大量的高性能、低延迟、高容错的实时组件来完善实时大数据项目的架构。该项目中覆盖了大型实时项目的完整流程。从海量实时数据的采集、到实时数据的计算、到落地存储、到监控预警、到实时展示等。并且能够从项目中学习到大量的技术解决方案实现,帮助学生完成更高层级的就业。
| 主讲知识点
1. Flink实现秒级计算、2. HDFS、Hive、Hbase应对PB级规模数据、3. 使用Kylin和Druid实现实时和离线指标分析、4. 低延迟、高吞吐kafka保障数据接收、5.Redis缓存实现数据飞速交换、6. Apache Kylin实现毫秒级大规模数据分析、7. Cube高阶调优技术、解决碎片、膨胀等常见企业开发问题、8. 调度引擎Ooize管理Hadoop作业、9.Apache Sqoop实现离线数据采集

学完后具备如下能力: 1.掌握基于FTP、Flume + Kafka的实时数据采集开发2.掌握TB级海量规模下Flink实时处理开发,保证实时计算高容错3.掌握三种不同时间维指标的存储、计算方案(Druid、MySQL、HBase),例如:毫秒级\秒级\分时等时间维4.掌握基于Kylin的即席快速OLAP开发5.掌握基于Flink CEP的实时预警监控开发6.掌握基于Spring Boot的数据服务接口开发

阶段十 大厂面试题
| 面试技巧
1.提升学生在面试时的沟通技巧,能够将自己掌握的知识完整的表达出来。
| 面试题
1.Java语言、2.异常、3.多线程、4.容器和I/O、5.设计模式、6.JDBC、7.XML、8.数据结构和算法、9.MySQL、10.微服务架构、11.Linux/SHELL、12.Hadoop、13.ZK、14.Flume、15.JVM、16.Hive、17.HQL、18.Spark、19.Flink、20.Elasticstack、21.HBase、22Kafka
知行教育大数据平台

还原大型在线教育的大数据平台,建立企业数据仓库,统一企业数据中心,把分散的业务数据集中存储和处理。项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序,项目中挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。

技术亮点:

  • 基于CM平台进行 数据仓库建模、离线数仓架构分层
  • 使用ClouderaManager可视化自动部署和集群
  • 使用Git版本控制和CodeReview
  • 使用Oozie进行作业调度、Hive2的使用和调优、 Sqoop进行MySQL和Hive的双向海量数据同步
  • 使用拉链表完成增量数据的统计分析
  • 使用FineReport完成数据可视化
  • 今日证券指数

    本阶段为大数据体系中实时数据处理方向的项目实战阶段。近些年来,众多企业开始进行数字化转型,越来越多的业务直接依赖于大数据技术的支撑。企业对大数据技术的时效性要求也越来越高,很多企业都开始启动实时大数据项目,以大量的高性能、低延迟、高容错的实时组件来完善实时大数据项目的架构。该项目中覆盖了大型实时项目的完整流程。从海量实时数据的采集、到实时数据的计算、到落地存储、到监控预警、到实时展示等。并且能够从项目中学习到大量的技术解决方案实现,帮助学生完成更高层级的就业。

    技术亮点:

  • 掌握基于FTP、Flume + Kafka的实时数据采集开发
  • 掌握TB级海量规模下Fli nk实时处理开发,保证实时计算高容错
  • 掌握三种不同时间维指标的存储、计算方案(Druid、MySQL、HBase),例如:毫秒级\秒级\分时等时间维
  • 掌握基于Kylin的即席快速OLAP开发
  • 掌握基于Flink CEP的实时预警监控开发
  • 掌握基于Spring Boot的数据服务接口开发
  • 星途车联网

    近年来,国家大力推广新能源汽车产业,汽车附加产业。随着车辆设备终端技术的发展,收集车辆数据高度精确且极其高效。大型车企累计大量数据,在传统模式数据存储和计算方式下,无法满足原始车辆数据高效存储、快速计算、智能推荐等需求,此系统应运而生。车联网大数据系统通过TBOX车辆终端收集车辆上报原始数据,通过嵌入式代码解析为TSP数据、DCS数据、充电数据、HU数据,原始数据经过ETL转换存储到数仓中,存储到NoSQL数据库系统中与分布式文件系统上。在计算与服务层,提供实时计算服务与离线计算服务,最终通过API接口提供数据查看,以报表和大屏展示分析结果数据。

    技术亮点:

  • 海量数据处理,系统15分钟内收集的新能源车辆的数据超过千万条
  • 基于Hive、HBase、HDFS数据存储
  • 基于Kafka数据传输
  • 基于Flink全栈数据处理
  • 基于Nginx做反向代理、LSV和Keepalived负载均衡和高可用
  • 客快物流

    本项目是基于大型物流公司业务研发的智慧物流大数据平台,公司业务网点覆盖国内各地,大规模的客户群体,日订单达1000W,平台对千亿级数据进行整合、分析、处理,保障业务的顺利进行。

    技术亮点:

  • 基于Oracle物流系统
  • 基于MySQL客户系统
  • Oracle数据与MysSQL整合
  • 基于Kafka+Structured Streaming实时处理
  • 基于Structured Streaming实现实时ETL
  • 基于高可维护性的Spark DSL实现复杂逻辑
  • 基于Spring Cloud实现数据微服务接口
  • 基于Docker高效部署方案
  • 基于Oracle Golden Gate实时数据采集
  • 基于Canal实时数据采集
  • 智数电商

    智数电商主要是对来自全品类B2B2C电商系统的数据进行分析,数据仓库分为离线数仓和实时数仓,技术框架依托于大数据CDH发型版构建。智数电商在业务上贴近企业实际需求,指标计算完成后采用开源BI工具Apache superset对指标数据进行可视化展示。

    技术亮点:

  • 数据存储以HDFS、Hive、Hbase为基石,轻松应对千亿级规模数据
  • 离线计算以Spark为核心,以企业主流的Spark-SQL进行数据处理、分析
  • 使用实时计算引擎Flink实现秒级指标计算
  • 基于Kafka+Flink+ ApacheDruid三大性能框架搭建实时数仓
  • 还原大型互联网公司实时数仓分层(ods、dwd、dws、app)
  • 基于开源ELT平台Kettle实现离线采集
  • 基于阿里开源Canal实现采集业务数据库数据
  • 基于Apache Flume实时日志采集
  • 基于Google ProtoBuf实现消息序列化,保证Kafka高效存储
  • 基于Parquet+Snappy存储、压缩、保障HDFS高效存储
  • 围绕Apache Kylin实现毫秒级大规模数据分析Cube高阶调优技术,解决碎片、膨胀等常见企业开发问题。
  • 万网信号

    已经是人们生活中重要的通信、咨询、娱乐工具,本项目基于手机测速软件采集的数据,对用户的网速、上行下行流量、网络制式、信号强度等信息进行宏观分析,根据数据分析结果,计算出附近通讯厂商包括移动、联通、电信的信号强度。

    技术亮点:

  • 基于HDFS+Hive+SparkSQL离线计算
  • 基于Canal+Flume+Kafka+Spark Streaming实时计算
  • 基于HBase单日亿级海量数据存储
  • 基于HBase+Phoenix实时数据查询
  • 覆盖中国移动、中国联通、中国电信等信号检测
  • ECharts地图热力图展示,信号强弱一目了然
  • 信号多维度分析,包含信号强弱、网络质量、信号覆盖等
  • 千面电商

    以某知名电商用户画像系统为基础二次开发,形成本项目。包含了几乎所有的常见标签类型的计算思路,也具有数个机器学习类型的标签,标签种类充足。采用 Spark 进行数据开发,使用 Spring 系统作为业务系统开发,包含了从部署到标签计算的全流程。

    技术亮点:

  • 项目使用HBase存储海量用户标签数据
  • 基于HBase的协处理器整合Solr实现快速全文检索
  • 基于Spark MLLib建立数据挖掘模型
  • 基于大数据平台的机器学习库
  • 基于Ooize的作业调度工程
  • 每个模型对应一个JOB,每个JOB独立运行,保障容错性同时保障可维护性
  • 自动化模型管理、监控
  • 每个标签可视化集中管理,每个标签独立发布产品
  • 蜂鸟DMP广告系统

    DMP全称数据管理系统,为广告系统提供数据服务,其中涉及标签处理、用户识别、图计算等技术点,可以帮助学员强化大数据开发能力。

    技术亮点:

  • Apache Kude+Apache Impala、Apache Kudu + Spark兼顾AdHoc、OLAP
  • 基于Cloudera、小米主推的性能存储、计算方案
  • 以性能引擎驱动的用户画像标签技术
  • 收益广告投放汇报
  • 以Elastic Search构建快速存储以及标签查询
  • 利用搞得地图构建公司自主运营商圈库
  • 精准营销兼顾线上、线下
  • 基于图计算搭建千万用户之间关系网
  • 基于Spark DataFrames构建图快速识别同一用户,精准数据结果
  • 天知票务反爬

    天知票务反爬系统,是一款大数据防爬工具,该项目采用Lua+Spark+Redis+Hadoop框架搭建,包含状态监控、反爬指标配置、运营指标监控展示等主要功能,能够限制爬虫访问,从而解决各大订票网站恶意占座、系统资源虚耗、系统波动等问题。

    技术亮点:

  • Nginx+OpenResty+Lua+Redis实现实时秒级爬虫封禁
  • 上万高并发实时拦截
  • 强化杀虫剂、出生即死亡,业务系统的忠实守卫
  • 以Apache Kafka消息队列实现各个模块耦合
  • 保障反爬系统高吞吐、高容错
  • 简单易用UI,可视化规则设计
  • 利用自定义规则持续改进反爬系统
  • 实时上传,实时生效,飞速反爬规则上线
  • 通过Spark Streaming实时监控访问状态、集群运行状态
  • 实时系统高容错保证,7*24小时不间断反爬