• 500h

    课程时长

  • 365

    服务期

  • 长期有效

    有效期

课程参数
教学服务
随到随学
随时随地皆可学习,无需等待,使你的学习更灵活,更高效。
班主任督导
班主任全程跟进,提供全方位暖心服务,为你的学习保驾护航。
新手任务
新手专属任务,带你快速体验线上学习,适应学习节奏,保障后续学习更高效。
闯关式学习
进阶式地达成每一个目标,不断提高成就感,稳扎稳打,完成课程。
答疑辅导
答疑解惑,及时扫清学习过程中的障碍,助你顺利完成学习。
直播串讲
循环+专项直播,带你梳理知识体系,让学习过程更顺畅。
笔记分享
深度反思学习内容,交流学习收获,使你对知识理解的更透彻!
作业批改
批改作业,指出问题,发现你的薄弱环节,提出建议,使你更有重心的学习。
全方位学习测评
小节测试、课后练习,阶段作业多维度测评,有效保障你的学习效果。
配套教辅
高度契合的配套讲义、大纲,保证让你全方位的理解知识。
源码开放
提供全部课程源码,搭建真实的开发环境,保证你的练习更高效。
就业服务
一对一职业规划,就业指导,为你高薪就业保驾护航。
学习报告
记录学习轨迹和学习掌握情况,真实全面地体现你的综合学习成果。
结业证书
以官方名义提供的学习经历和成果证明, 是对你能力的肯定和获得企业认可的敲门砖。
作业点评
讲解作业设计思路、点评学员作业问题并给出最终解决方案
就业指导
简历指导,面试辅导,帮你解惑面试问题。
课程更新
在服务期内,如果课程有更新,你可以享受更新后的课程内容。
学习计划
个性化制定每天学习任务
单元测试
根据每个小节学习的知识点测试学习情况

大数据技术目前在企业里面使用的越来越广泛,对大数据人才的需求越来 越多,大数据的整个课程体系是由来自大型互联网、外企等具有5年以上的一线大数据高级工程师、架构师和高级机器学习工程师设计出来的,内容含金量非常高。

课程体系涉及的技术以企业需求为导向,课程涉及的项目也是企业里面真实的项目,通过理论、实践和真实的项目相结合,让学员能够快速、深刻的掌握大数据常用的核心技术和开发应用,同时可以满足企业对中、高端大数据人才的需求。大数据课程体系除了包含常用的Hadoop、Hive、HBase、ELK、Sqoop、 Flume、Kafka、Spark 等技术和项目,还新增了目前互联网比较流行的Flink、Druid、 Kylin等技术和项目,同时引入了机器学习和深度学习Spark MLlib和Tensorflow等技术和项目实战。

为了学员毕业之后,进入职场还能够不停的学习新的技术和项目,大数据课程体系设置了在线课程大礼包,让毕业的学生进入职场以后还可以学习传智教育大数据课程新的技术和项目,实现不断的持续学习和自我提升,帮助学员在企 业里面快速的成长。

  • 学完收获:
  • 具备Hadoop、HBase、Spark、Kafka等框架的开发能力
  • 具备大型框架的调优能力
  • 熟悉常用的数据挖掘算法(回归、聚类、决策树、随机森林等)
  • 掌握常用的数据结构和算法
  • 能够阅读大型框架的核心代码
  • 能够在海量数据应用场景下进行深度优化,保证程序执行细性能
  • 阶段一 大数据基础
    • Linux操作系统

      计算机基础知识、Linux环境安装、远程连接工具、文件操作命令、压缩解压缩命令、文件查找命令、
      系统管理命令、权限管理、网络服务管理命令等。

    • MySQL数据库

      数据库环境搭建、SQL语言(DDL、DML、DQL)、多表查询、索引等。

    • Kettle数据预处理

      数据仓库与ETL入门、Kettle安装部署、数据抽取与装载、表输入组件、表输出、插入更新、switch/case等组件使用,开发Kettle作业等。

    • Apache Superset可视化开发

      部署Superset、Superset可视化开发步骤、Charts制作、Dashboard制作。

    • 电商运营指标分析

      电商业务背景、案例架构、数据仓库数据增量同步、ETL开发、指标SQL开发、Kettle作业调度、Superset可视化展示等。

    可掌握能力: 1. 掌握企业级ETL工具kettle;2. 掌握BI的可视化平台Superset;3. 掌握Kettle ETL处理设计思想;4. 掌握大数据企业开发中最常见的的Linux的操作;5. 掌握一款主流数据库客户端工具DataGrip;6. 掌握企业MySQL的调优方案;7. 掌握大数据分析中数据全量及增量同步解决方案;8. 掌握生产环境中数据分析程序的部署解决方案。
  • 阶段二 Java语言编程
    • 编程基础

      Java概述、Java程序入门、常量与变量、数据类型、运算符、流程控制语句、方法、数组。

    • 面向对象

      面向对象思想、类与对象、成员变量和局部变量、封装、 this关键字、构造方法。

    • 常用类

      Object类、String、StringBuilder等。

    • 集合操作

      数据结构、List、Set、Map等。

    • IO操作

      字节输入流、序列化、字节输出流、Apache Commons IO等。

    • Java基础增强

      反射、网络编程、多线程、注解等。

    • 爬虫案例

      jsoup、MySQL高级、JDBC、ETL、BI。

    可掌握能力: 1. 掌握Java程序基础数据类型;2. 掌握开发中常用类如集合、IO流、常用类等操作;3. 掌握Java异常处理机制;4. 掌握反射、网络编程、多线程开发;5. 掌握jsoup的网络爬虫开发;6. 掌握JDBC操作;7. 掌握ETL数据处理和BI报表开发。
  • 阶段三 Hadoop技术栈
    • Linux操作系统高级

      Linux shell编程、awk、sed、cut、ssh、scp、expect、yum、nestat、top 、iostat等高级命令使用。

    • 大数据基础和硬件介绍

      大数据的特点、分布式存储概念、分布式计算的概念、服务器种类介绍、机架、交换机、网络拓扑、Raid、IDC数据中心。

    • Zookeeper

      Zookeeper的应用场景、架构和原理、存储模型、选举机制、客户端操作。

    • HDFS

      HDFS设计的特点、Master-Slave架构、Block块存储、RF拷贝因子、机架感知、Block拷贝策略、读写流程、HDFS Federation、HDFS Snapshots、NameNode HA架构和原理、HDFS管理员常用操作、HDFS权限控制。

    • MapReduce

      MapReduce架构和原理、Split机制、MapReduce并行度、Combiner机制、Partition机制、自定义Partition、MapReduce序列化、自定义排序、数据压缩。

    • YARN

      Yarn原理和架构、Yarn高可用、Container资源的封装(CPU、内存和IO)、资源调度策略(FIFO、Fair和Capacity)。

    • Hive

      Hive原理和架构、HQL操作、数据类型、分区、分桶、临时表、Meta Store服务、HiveServer内置函数、自定义UDF和UDAF、数据压缩、存储格式、自动化脚本、常见性能优化、explain执行计划详解。

    可掌握能力: 1. 掌握Shell编程;2. 掌握ZooKeeper原理并应用;3. 掌握HDFS的使用和MapReduce编程;4. 理解MapReduce原理和调优;5. 掌握Yarn的原理和调优;6.掌握Hive的使用和调优。
  • 阶段四 知行教育大数据
    • 知行教育大数据课程知识点

      基于CM自动部署和配置、 数据仓库建模、离线数仓架构分层、 使用Git版本控制和CodeReview、使用Oozie进行作业调度、Hive2的使用和调优、 Sqoop进行MySQL和Hive的双向海量数据同步、使用拉链表完成增量数据的统计分析、使用FineReport完成数据可视化。

    可掌握能力: 1. 掌握从需求、设计、研发、测试到落地上线的完整项目流程;2. 掌握大量教育行业的真实业务逻辑,涉及20多个主题,100多个指标;3. 掌握海量数据如何调优、使用拉链表、增量数据处理,以及Hive函数的具体应用等;4. 掌握基于CM的大数据环境部署和管理;5. 掌握数据仓库的核心概念和应用;6. 掌握常用离线大数据技术:Oozie、Sqoop、Hive等;7. 掌握FineReport可视化。
  • 阶段五 NoSQL存储
    • Redis存储

      Redis原理及架构、Redis Cluster原理及架构、Redis常用操作。

    • HBase存储

      HBase原理及架构、预分区、LSM结构、Bloom Filter、co-processor、结合Phoneix进行优化查询。

    • ELK

      ElasticSearch开发、Logstash数据采集、Kibana数据可视化。

    可掌握能力: 1. 掌握Redis原理及架构;2. 掌握Redis命令操作、及数据结构;3. 掌握HBase原理及架构;4. 掌握HBase命令操作、MapReduce编程;5. 掌握Phoneix二级索引优化查询;6. 掌握ELK开发。
  • 阶段六 Spark技术栈
    • Scala语言

      Scala基础、变量声明、数据类型、条件表达式、块表达式、循环、方法和函数、数组、元组、集合、Iterator、构造器、伴生对象、Akka编程

    • Spark core

      Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程)、RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)、广播变量 、DAG原理(DAG思想、DAG的生成、DAG的处理过程)

    • Spark sql、Spark Streaming、Structure streaming

      Spark SQL架构和原理、DataFrame、DataSet DSL和SQL开发、Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive)、Spark SQL执行计划原理、Spark SQL性能调优

    可掌握能力: 1. 掌握Scala语言基础、数据结构;2. 掌握Scala语言高阶语法特性;3. 掌握Spark的RDD、DAG、CheckPoint等设计思想;4. 掌握SparkSQL结构化数据处理;5. 掌握Spark On Hive整合;6. 掌握Spark Streaming整合Kafka完成实时数据处理;7. 掌握Spark Streaming偏移量管理及Check point;8. 掌握Structured Streaming整合多数据源完成实时数据处理;
  • 阶段七 千面电商用户画像项目
    • 千面电商用户画像知识点

      HBase存储海量用户标签数据、HBase协处理器整合Solr实现快速全文检索、Oozie的作业调度工程、自动化模型管理、监控、基于Spark MLlib建立数据挖掘模型、主流机器学习算法K-Means、ALS、决策树

    可掌握能力: 1. 能够说出用户画像定义规则及应用场景;2. 能够完成用户画像项目搭建和部署;3. 能够完成标签系统设计;4. 能够说出批量加载数据Bulkload的原理和实现步骤;5. 能够使用Oozie调度Spark2配置;7. 能够使用Oozie Java Client API;8. 能够进行用户画像功能模块划分及导入测试;9. 能够说出标签模型任务开发流程和执行流程;10. 能够开发规则匹配类型标签模型;11. 能够使用模板方法设计模式编写标签模型基类;12. 能够自定义外部数据源并通过HBase实现加载和数据保存;13. 能够开发统计类型标签模型;14. 能够说出Solr功能和核心组成;15. 能够针对进行Solr安装部署和界面管理;16. 能够使用常见Solr API;17. 能够实现批量插入数据工具类SolrTools;18. 能够使用HBase协处理器同步数据至Solr;19. 能够使用SparkSQL实现外部数据源数据加载;20. 能够说出交替最小二乘法ALS算法使用场景;21. 能够实现用户购物偏好模型BP。
  • 阶段八 Flink技术栈
    • Kafka

      Kafka原理及架构分析、分布式实时计算架构和思想。

    • Flink

      Flink DataStream的使用、Flink SQL开发、Flink 性能监控、Flink调优、Flink SQL执行计划、Hive + Flink SQL、Kafka + Flink、Water-Mark、CheckPoint、任务调度与负载均衡、状态管理、Flume+Kafka+Flink+HBase+Sqoop+Canel+MySQL案例实战

    可掌握能力: 1. 掌握Kafka原理及架构;2. 掌握KafkaStreams开发;3. 掌握基于Flink进行实时和离线数据处理、分析;4. 掌握基于Flink的多流并行处理技术;5. 掌握千万级高速实时采集技术。
  • 阶段九 星途车联网
    • 星途车联网知识点

      Flink整合Kafka、Flink实时ETL、 Flink自定义Sink(HBaseSink)、Phoenix、Flink数仓分层、Flink广播、Flink多流处理、MongoDB集群、SpringBoot、SpringAOP、Lombook、Swagger、FlinkWindow、Zeppelin、FlinkJDBC、FlinkSQL、Azkaban、Superset、ECharts

    可掌握能力: 1. 能够说出车联网行业数据采集方法;2. 能够说出采集数据处理流程;3. 能够说明原始数据实时ETL任务消费数据策略;4. 能够说明原始数据实时ETL任务任务备份与重启机制;5. 能够说明原始数据实时ETL落地Hive流程;6. 能够使用HBase实现原始数据落地;7. 能够使用HBase创建原始数据的二级索引;8. 能够使用Zepplin进行原始据可视化;9. 能够操作DataGrip连接不同类型数据源;10. 能够基于车联网项目的数据分层;11. 能够使用Flink对驾驶行程进行业务分析;12. 能够使用HBase+Phoenix进行统计分析;13. 掌握操作流与广播状态流connect方法;14. 能够使用Redis进行数据缓存;15. 能够说出自定义告警规则数据存储流程;16. 能够说出自定义告警规则数据存储MongoDB常用方法;17. 能够实现JDBC开发数据存储到MongoDB程序;18. 能够说出数据服务接口开发流程;19. 能够将数据下沉到MongoDB;20. 能够说出原始数据准确率分析方法;21. 能够说出自定义告警规则分析方法;22. 能够说出Azkaban安装部署核心步骤;23. 能够使用Azkaban任务调度Flink Batch、Flink on Yarn任务;24. 能够使用Flink进行任务调度;25. 能够说出BI相关术语以及优缺点;26. 能够使用Superset进行BI报表开发;27. 能够编写Web系统进行前后台数据交互。
  • 知行教育大数据平台

    受互联网+概念的催化,教育市场发展火热,逐渐涌现出包括有线上学习和线下培训等诸多K12教育和职业教育机构,本项目旨在还原大型在线教育的大数据平台,并建立企业数据仓库,统一 企业数据中心,把分散的业务数据集中存储和处理;项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序,挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主体使用。

    技术亮点:
    1. 1、基于CM平台进行 数据仓库建模、离线数仓架构分层
    2. 2、使用Cloudera Manager可视化自动部署和集群
    3. 3、使用Git版本控制和CodeReview
    4. 4、使用Oozie进行作业调度、Hive2的使用和调优、 Sqoop进行MySQL和Hive的双向海量数据同步
    5. 5、使用拉链表完成增量数据的统计分析
    6. 6、使用FineReport完成数据可视化
    7. 7、使用Apache Kylin毫秒级大规模分析响应
  • 千面电商用户画像项目

    以某知名电商用户画像系统为基础二次开发,形成本项目。包含了几乎所有的常见标签类型的计算思路,也具有数个机器学习类型的标签,标签种类充足。采用 Spark 进行数据开发,使用 Spring 系统作为业务系统开发,包含了从部署到标签计算的全流程。

    技术亮点:
    1. 1、使用HBase存储海量用户标签数据
    2. 2、基于HBase协处理器整合Solr实现快速全文检索
    3. 3、基于Oozie的作业调度工程
    4. 4、自动化模型管理、监控
    5. 5、基于Spark MLlib建立数据挖掘模型
    6. 6、涵盖主流机器学习算法:K-Means、ALS、决策树
  • 星途车联网

    项目涵盖完整车联网业务场景,包含驾驶行程、电子围栏、远程诊断等真实业务,通过QBOX车辆终端数据收集,并解析为QSP数据、QCS数据、充电数据、HU数据,提供实时计算服务与离线计算服务,并通过API接口以报表和大屏展示分析结果数据。

    技术亮点:
    1. 1、海量数据处理,系统15分钟内收集的新能源车辆的数据超过千万条
    2. 2、基于Hive、HBase、HDFS数据存储
    3. 3、基于Kafka数据传输
    4. 4、基于Flink全栈数据处理
    5. 5、基于Nginx做反向代理、LSV和Keepalived负载均衡和高可用