云计算大数据在线课程章节-大数据优质课程-博学谷

优惠报名

云计算大数据在线课程

本课程以案例驱动教学，将真实案例贯穿到知识点中，内容涵盖Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、Impala、Hue、Oozie、Storm、kafka、Spark、Scala、SparkSQL、Hbase等。

阶段一基础增强

展开

第一章就业课(2.0)-基础巩固

1-1 linux操作基础

1、三台虚拟机的复制并联网
2、虚拟机的联网以及基础命令增强
3、linux的查找命令
4、linux的用户与用户组以及linux的su与sudo
5、linux的权限管理
6、linux系统服务管理，网络管理等

1-2 shell编程

7、linux当中的shell编程
8、shell当中的变量定义，变量引用以及算数运算符
9、shell当中的流程控制语句以及函数使用

1-3 hadoop集群环境准备

10、大数据集群基本环境准备
11、大数据集群环境的基础准备

1-4 zookeeper集群

12、zk的概述以及架构图以及基本特性
13、zk集群的安装
14、zookeeper的节点操作（添加，修改，删除节点）
15、zookeeper的watch机制
16、zk节点的javaAPI操作
17、zk的javaAPI操作

1-5 网络编程与总结

18、网络编程概述（了解）
19、hadoop第一天课程总结

第二章就业课(2.0)-JVM优化(上)

2-1 JVM优化1

01.今日内容_D01
02.我们为什么要对jvm做优化？
03.JVM运行参数之-参数类型以及标准参数
03.JVM运行参数之-参数类型以及标准参数
04.JVM运行参数之-server与-client
05.JVM运行参数之-Xint、-Xcomp、-Xmined
06.JVM运行参数之-XX参数
07.JVM运行参数之-Xms与-Xmx参数
08.JVM运行参数之查看jvm运行参数
09.JVM内存模型之jdk1.7与jdk1.8内存模型（很重要）
10.JVM内存模型之jstat命令的使用
11.jmap命令的使用
12.使用jhat对dump文件进行分析
13.通过MAT工具对dump文件进行分析
14.实战：内存溢出的定位与分析
15.jstack命令的使用
16.实战：死锁问题
17.VisualVM工具的使用（监控本地进程）
18.VisualVM工具的使用（监控远程进程）

第三章就业课(2.0)-JVM优化(中)

3-1 JVM优化2

01.今日内容_D02
02.什么垃圾回收？
03.垃圾回收算法之-引用计数法
04.垃圾回收算法之-标记清除法
05.标记清除算法中的应用程序暂停的问题说明
06.垃圾回收算法之-标记压缩算法
07.垃圾回收算法之-复制算法
08.垃圾回收算法之-分代算法
09.垃圾收集器之串行垃圾收集器
10.垃圾收集器之并行垃圾收集器
11.垃圾收集器之CMS垃圾收集器
12.垃圾收集器之G1垃圾收集器的原理
13.垃圾收集器之G1垃圾收集器中的YoungGC
14.垃圾收集器之G1垃圾收集器中的MixedGC
15.垃圾收集器之G1垃圾收集器中的参数以及测试
16.垃圾收集器之G1垃圾收集器的优化建议
17.可视化GC日志分析工具

第四章就业课(2.0)-JVM优化(下)

4-1 JVM优化3

01.今日内容_D03
02.Tomcat8优化之部署安装
03.Tomcat8优化之禁用AJP服务
04.Tomcat8优化之配置执行器（线程池）
05.Tomcat8优化之3种运行模式（启用nio2模式）
06.Tomcat8优化之部署web项目
07.Tomcat8优化之Apache JMeter的使用（对首页进行压力测试）
08.Tomcat8优化之禁用AJP服务的压力测试
09.Tomcat8优化之设置线程池进行压力测试
10.Tomcat8优化之设置nio2运行模式进行测试
11.Tomcat8优化之设置设置并行垃圾收集器进行测试
12.Tomcat8优化之通过GC报表进行分析
13.Tomcat8优化之设置G1垃圾收集器进行测试
14.Tomcat8优化之G1牢记收集器的测试结果以及小结
15.JVM字节码之javap的使用
16.JVM字节码之常量池、字段描述符、方法描述符
17.JVM字节码之解读方法字节码
18.JVM字节码之解读方法字节码（图解）
19.JVM字节码之研究 i++ 与 ++i 的不同
20.JVM字节码之探究字符串的拼接
21.代码优化建议

阶段二 hadoop 离线分布式系统

展开

第一章就业课(2.0)-hadoop环境搭建2.0

1-1 hadoop源生集群搭建

1、hadoop第二天上次课程内容回顾
2、hadoop的介绍以及发展历史和历史介绍等
3、hadoop的三大发行公司以及hadoop的架构模型
4、standAlone的环境搭建之配置文件修改
5、hadoop集群的standAlone环境的启动以及管理界面查看
6、hadoop的完全分布式环境搭建

1-2 CDH版本集群搭建

7、CDH版本的hadoop的重新编译
8、cdh版本的zk环境搭建
9、cdh版本的hadoop重新编译之后伪分布式环境搭建

第二章就业课(2.0)-hdfs

2-1 hdfs入门

10、hadoop的hdfs以及MapReduce的体验
11、hdfs的基本特性介绍
12、hdfs的基本操作命令
13、hdfs的高级命令使用
14、hdfs的基准测试
15、hadoop第二天今日课程总结

2-2 hdfs深入

1、hadoop第三天上次课程内容回顾
2、今日课程内容大纲以及hdfs的基本实现
3、hdfs的架构以及副本机制和block块存储
4、hdfs当中的元数据管理以及元数据的查看
5、hdfs当中的fsimage与edist的合并过程
6、hdfs文件的写入过程
7、hdfs的文件的读取过程
8、hdfs的javaAPI开发以及如何解决winutils的问题
9、获取分布式文件系统客户端的几种方式
10、hdfs的javaAPI操作

第三章就业课(2.0)-mapreduce

3-1 mapreduce入门

11、MapReduce程序的入门
12、mapreduce程序的完成以及打包运行
13、mapreduce程序的本地模式运行
14、hadoop第三天今日课程总结

3-2 mapreduce深入学习

1、hadoop第四天上次课程内容回顾
2、MapReduce的分区
3、分区案例的补充完成运行实现
4、MapReduce的序列化以及自定义排序
5、mapreduce的排序以及序列化代码完成实现
6、MapReduce当中的计数器
7、mapreduce当中的规约过程（combiner）
8、手机流量汇总求和
9、手机上行流量排序实现
10、手机号码进行分区
11、maptask的运行机制
12、reducetask的运行机制
13、mapReduce的整个运行的过程，好好反复看视频
14、mapreduce数据的压缩-使用snappy来进行数据的压缩
15、reduce端的join算法的实现
16、map端join算法的代码实现1
17、map端的join算法的实现补充2
18、hadoop第四天今日课程总结

3-3 mapreduce高级

1、hadoop第五天上次课程内容回顾
2、共同好友求取步骤一
3、求取共同好友步骤二
4、倒排索引的建立
5、通过自定义inputformat实现小文件合并成为sequenceFile格式1
6、自定义inputformat实现小文件的合并2
7、自定义outputformat实现输出到不同的文件夹下面去
8、自定义分区实现分组求取topN
9、自定义分组求取top1
10、思考：如何分组求取topN的值
11、实现分组求取topN
12、mapreduce相关的参数调整

第四章就业课(2.0)-yarn

4-1 yarn

13、yarn资源调度的介绍
14、yarn集群当中的三种调度器
15、关于yarn当中常用的参数设置
16、hadoop第五天今日课程总结

第五章就业课(2.0)-hive

5-1 hive安装

1、hadoop第六天上次课程内容回顾
2、数据仓库的基本概念
3、hive的基本介绍
4、hive的基本架构以及与hadoop的关系以及RDBMS的对比等
5、hive的安装之（使用mysql作为元数据信息存储）

5-2 hive基本操作

6、hive的基本操作
7、创建数据库的语法
8、hive当中创建内部表的语法
9、hive当中创建外部表的语法及外部表的操作
10、外部分区表综合练习
11、hive当中的分桶表以及修改表删除表数据加载数据导出等
12、hive当中的hql语法

5-3 hive高级用法

13、hive的函数
14、hive的数据压缩
15、hive的数存储格式介绍
16、hive当中常用的几种数据存储格式
17、存储方式与压缩格式相结合
18、hadoop第六天今日课程总结

5-4 hive调优

1、hive的调优之fetch的抓取以及表的优化
2、hive的调优
3、hive的课程总结

第六章就业课(2.0)-辅助系统工具

6-1 flume

4、离线项目处理的整个架构图
5、flume的基本介绍
6、flume的入门测试案例
7、flume监控文件夹，实现数据收集到hdfs上面去
8、flume采集某个文件内容到hdfs上面去
9、flume的多个agent串联实现node02采集数据发送给node03，node03保存数据到hdfs上面去
10、flume的更多组件介绍
11、flume的failover机制实现高可用
12、flume的load_balance实现机制
13、更多flume案例一，通过拦截器实现数据类型的区分
14、flume的拦截器实现不同类型的数据区分
15、flume的案例二，通过自定义拦截器实现数据的脱敏

6-2 azkaban调度

16、azkaban的介绍以及azkaban的soloserver的安装使用
17、azkaban的两个服务模式的安装
1、azkaban的任务调度使用

6-3 sqoop

2、sqoop的基本简介自己sqoop的安装
3、sqoop的入门测试使用
4、sqoop的数据导入之导入数据到hdfs以及导入数据到hive表当中来
5、实现数据的控制导入
6、sqoop的数据增量导入以及sqoop的数据导出
7、通过java代码远程连接linux执行linux的shell命令

第七章就业课(2.0)-网站点击流项目

7-1 网站点击流项目(上)

1、网站流量分析模型
2、网站流量分析的常见指标
3、离线日志网站处理的架构流程（流程背下来）
4、网站的数据采集，使用flume的taildir实现多个文件的监控采集
5、数据的预处理之清洗一些不必要的数据
6、数据预处理之pageView表模型数据
7、数据的预处理之数据的visit表模型
8、hadoop第八天课程总结

7-2 网站点击流项目(下)

1、数据仓库建模的基本概念
2、明细宽表的生成
3、流量统计分析，分组求topN
4、受访分析
5、访客分析
6、访客visit分析
7、hive的级联求和
8、结果的导出以及工作流的调度工作
9、三大框架整合搭建
10、实现第一个图标的显示
11、实现折线图的图表展示

第八章就业课(2.0)-impala

8-1 IMPALA

1、impala的基本介绍
2、impala的架构介绍
3、impala软件的下载以及linux磁盘的挂载
4、linux磁盘的挂载
5、linxu的磁盘挂载2以及压缩文件的上传并解压
6、yum源制作过程
7、impala的安装以及配置过程
8、impala的shell交互窗口使用
9、impala的外部以及内部shell参数
10、impala的基本查询语法
11、impala当中的数据加载的四种方式
12、通过java代码来执行impala的查询操作

第九章就业课(2.0)-HUE

9-1 HUE

13、hue的下载以及安装配置
14、hue与hdfs以及与yarn集群的整合
15、hue与hive的整合
16、hue与impala以及与mysql的整合
17、hadoop第十天今日课程总结

第十章就业课(2.0)-oozie

10-1 OOZIE

1、hadoop11天上传课程内容回顾以及今日课程内容大纲
2、oozie介绍以及oozie的安装1
3、oozie的安装步骤2
4、通过oozie执行shell脚本
5、通过oozie执行hive的任务
6、通过oozie执行mapreduce的任务以及oozie执行sqoop的任务的解决思路
7、oozie当中的job任务的串联
8、oozie当中的定时任务的执行
9、oozie与hue的整合以及整合之后执行MR的任务
10、伪分布式环境转换为HA集群环境
11、hadoop的federation联邦机制（了解一下）
12、cm环境搭建的基础环境准备
13、clouderaManager的服务搭建
14、clouderaManager服务的安装3
15、hadoop11天今日课程总结

阶段三 storm实时计算系统

展开

第一章就业课(2.0)-kafka消息队列

1-1 kafka消息队列

1、kafka的基本介绍以及kafka与传统消息队列的对比
2、kafka的架构介绍以及基本组件模型介绍
3、kafka集群的安装
4、kafka集群的安装以及kafka的命令行的管理使用
5、kafka的javaAPI操作
6、kafka的分区四种策略
7、kafka的消费模型
8、kafka的配置文件server.properties的说明
9、kakfa的配置文件的说明2
10、flume与kafka的整合使用
11、kafka的数据不丢失机制以及kafka-manager监控工具的使用
12、今日课程总结

第二章就业课(2.0)-storm编程

2-1 storm编程

1、storm第一天上次课程内容回顾
2、storm的基本介绍
3、storm的架构模型的介绍
4、storm的环境搭建以及storm的编程模型的介绍
5、storm入门案例wordcount1
6、storm的入门案例之wordcount的运行
7、storm的并行度分析以及如何解决线程安全问题
8、storm的分发策略
9、storm与kafka的整合

2-2 storm实时看板案例

9、实时看板综合案例
10、redis的安装使用回顾
11、实时看板综合案例工程构建
12、实时看板综合案例代码完善
13、storm第一天今日课程总结

2-3 storm高级应用

1、storm第二天上次课程内容回顾以及今日课程大纲以及storm的下载地址，运行过程等
2、storm与hdfs的整合工程环境准备
3、storm与hdfs的整合
4、storm当中的ack机制
5、storm的ack机制验证超时
6、storm当中的定时器任务
7、storm与jdbc的整合使用
8、storm与jdbc整合打包集群运行

第三章 HBASE数据仓库

3-1 hbase的介绍和集群搭建

01、hbase介绍
02、hbase表结构逻辑视图--整体结构--cell--行健
03、hbase表结构之--列族--列--cell--时间戳
04、Hbase集群架构介绍
05、Hbase集群搭建和web页面介绍

3-2 hbase的java客户端代码编写

06、Hbase的shell客户端基本使用--表的初体验
07.hbase的客户端基本使用get查询数据-删除数据-修改数据-版本号-删除表
08.hbase的java客户端代码编写----获取连接----建表
09.hbase的java客户端代码编写----删除表---修改表的schema
10.hbase的java客户端代码编写----put插入数据、get获取数据、delete删除数据
11.hbase的java客户端代码编写----scan批量查询数据
12、hbase的java客户端代码编写--过滤器的使用
13、hbase的java客户端代码编写--分页过滤器查询

3-3 hbase的工作机制

14、hbase的工作机制--region的概率和机制
15.hbase的工作机制----menstore以及如何快速判断一条数据是否落在某个storefile--bloomfilter
16.hbased的工作机制----数据如何更新----文件的compact概念---hlog日志
17.hbased的工作机制----物理存储机制的概念梳理
18.hbase的工作机制----客户端寻址
19、hbase工作机制--读写过程

3-4 hbase的高级应用

20、hbase的高级应用
20.mapreduce读取hbase中的数据进行数据分析----mapreduce将输出处理结果写入hbase
22、hbase的二级索引实现方式--协处理器
23、通过协处理器的observer实现二级索引代码编写--运行---测试

阶段四 strom项目篇

展开

第一章就业课(2.0)-storm 项目开发

1-1 storm日志告警

1、日志监控告警业务需求逻辑
2、日志监控告警系统项目框架准备
3、日志监控告警系统代码完善
4、项目打包集群运行
5、storm第二天今日课程总结

1-2 storm路由器项目开发

1、storm第三天上次课程内容回顾
2、网络路由器项目背景
3、项目数据处理流程
4、网络数据类型介绍
5、数据的处理准备
6、数据的处理过程代码开发
7、任务打包集群运行-报错
8、集群监控软件ganglia的安装
9、ganglia集群监控软件的使用查看

阶段五 spark内存计算系统

展开

第一章 scala编程

1-1 scala工具的使用

01spark与hadoop的简单比较
02scala简介
03scala编译器安装
04scala开发工具和插件安装
05利用IEDA编写scala程序
06scala插件安装问题

1-2 scala的基本入门

07scala变量定义
08scala循环
09scala的判断
10scala操作符重载
11scala方法的定义

1-3 scala之函数

12定义函数
13.函数的定义2
14将方法转换成函数
15函数和方法总结

1-4 scala的数组、元组、集合的操作

16.scala数组常用方法
18元组
19.scala集合
17.scala的映射

1-5 scala版本的wordcount

20.scala单机版WordCount

1-6 scala知识点总结

21方法与函数回顾以及习题讲解

1-7 并行集合

01并行集合

1-8 scala类相关操作

02scala定义类
03scala构造器
04单例对象
05apply方法
06继承和实现特质

1-9 模式匹配、option类型以及偏函数

07模式匹配
08option类型
09偏函数

1-10 actor编程

10actor编程
11java的Future回顾
12.用Actor编写一个WordCount程序

1-11 akka入门

01akka的简介1
02akka简介2
03.akka通信小例子

1-12 案例-akka自定义RPC

04RPC通信的需求
05Akka自定义RPC-1
06Akka自定义RPC-2
07Akka自定义RPC-3

1-13 scala-柯里化

08柯里化

1-14 scala-隐式转换

01隐式转换简介
02隐式转换入门

1-15 scala泛型相关操作

03scala的泛型
04隐式转换-视图界定
05上下文界定-隐式转换
06隐式转换加强

1-16 scala复习

1、复习scala

第二章 spark入门

2-1 spark官方文档详解和如何通过官方文档学习spark

2、spark官方文档详解和如何通过官方文档学习spark

2-2 安装standalone模式的spark

3、安装standalone模式的spark--单master
4、安装standalone模式的spark--多master

2-3 spark-shell

5、spark-shell的单机执行和集群执行模式、shell版wordcount
6、在spark-shell中运行集群wordcount
7、spark-shell从hdfs读取数据

2-4 在集群提交运行spark任务

8、通过scala的api写wordcount，将结果输出到不同的数据源
9、在集群提交运行spark任务

2-5 spark入门总结

10、spark入门总结

2-6 不通语言编写spark程序

11、python写spark，并运行在集群上
12、java写spark，并运行在本地
13、R写spark，并运行在集群

第三章 sparkRDD

3-1 RDD相关概念

14、提前预习RDD相关概念
15、复习
1、复习spark第一天

3-2 rdd详解

2、RDD的概念
3、通过RDD的转换方式对RDD详细解释

3-3 算子的transformation和action

4、RDD的transformation算子（上）
5、RDD的Action算子讲解

3-4 RDD的练习-iplocation

6、RDD的练习
7、iplocation的需求
8、iplocation的代码实现
9、将数据结果分区保存数据库

3-5 宽依赖和窄依赖以及stage的划分

10、复习
1、复习+宽依赖窄依赖+stage划分+集群运行原理
2、问题1

3-6 spark的cache和checkpoint

3、如何设置cache、如何设置checkpoint
4、问题2

3-7 pv、uv案例分析

5、PV案例
6、UV案例
7、pv、uv的环比分析

3-8 topk案例

8、topk案例

3-9 moble_location案例

9、moblelocation需求分析
10、代码实现--计算多余时间
11、代码实现-计算家庭地点和工作地点

第四章 sparkSQL

4-1 sparkSQL入门

12、spark-sql简介
13、spark-sql入门

4-2 sparkSQL的操作

14、datafrom简单操作
15、spark-sql的命令行创建表
16、spark-sql的api操作的两种模式

4-3 sparkSQL的总结和复习

17、总结sql
1、复习SQL

4-4 sparkSQL对接mysql

2、学习目标
3、通过spark-sql加载mysql的数据和表结构
4、spark-sql读取mysql数据验证sql语句
5、spark-sql操作mysql向数据库写数据

4-5 sparkSQL对接hive

6、spark-sql操作hive简介
7、hive on spark-sql

第五章 sparkStreaming

5-1 sparkStreaming的操作

8、spark-streaming的介绍
9、R on spark
10、spark-steaming的图解
11、通过tcp接收数据进行spark-streaming处理
12、updateStateByKey的讲解
13、window操作

5-2 扩展资料jedis源码

14、扩展资料jedis源码

5-3 flume+kafka+sparkStreaming整合

15、从flume中拉去数据到spark-streaming处理
16、flume想spark-streaming生产数据
17、spark-streaming从kafka中读取数据

5-4 总结SparkStreaming

18、总结SparkStreaming

阶段六 spark 用户画像

展开

第一章用户画像

1-1 用户画像介绍

1、电商大数据之应用--用户画像是什么
2、电商大数据之应用--构建用户画像的意义

1-2 用户画像建模

3、电商大数据之应用--构建用户画像流程和技术
4、电商大数据之应用--用户画像建模--用户基本属性表
5、电商大数据之应用--用户画像建模--客户消费订单表
6、电商大数据之应用--用户画像建模--客户购买类目表
7、电商大数据之应用--用户画像建模--用户访问信息表

1-3 sparksql与hive整合以及数仓建立

8、电商大数据之应用--sparksql与hive整合
9、电商大数据之应用--数据仓库建立

1-4 客户基本属性表模型开发

10、电商大数据之应用--用户画像数据开发步骤流程
11、电商大数据之应用-用户画像开发-客户基本属性表模型开发（shell脚本封装案例）

1-5 订单宽表模型开发

12、电商大数据之应用-用户画像开发-订单宽表模型开发
13、电商大数据之应用-用户画像开发-客户消费订单表模型开发

1-6 客户购买类目表模型开发

14、电商大数据之应用-用户画像开发-客户购买类目表模型开发

1-7 客户访问信息表模型开发

15、电商大数据之应用-用户画像开发-客户访问信息表模型开发

1-8 用户画像宽表模型+hive与hbase整合

16、电商大数据之应用-用户画像开发-用户画像宽表模型+hive与hbase整合

1-9 hive数据导入hbase表中

17、电商大数据之应用-用户画像开发-用户画像宽表模型--hive数据导入hbase表中

1-10 数据可视化

18、电商大数据之应用-用户画像开发-用户画像宽表模型--数据可视化（数据导入phoenix）
19、电商大数据之应用-用户画像开发-数据展现
20、电商大数据之应用-用户画像开发-查询演示

第二章 spark项目-游戏反外挂日志分析

2-1 游戏项目介绍

1、课程目标以及网站部分指标介绍
2、日志分析整体流程
3、日志采集服务器采集方式简介
4、游戏背景介绍

2-2 服务器部署

5、数据来源
6、服务器部署情况
7、日志采集服务器的部署简介
8、日志分析流程总结

2-3 logstash快速入门

9、ELK工作栈的简介
10、logstash简介
11、logstash快速入门
12、logstash的工作原理
13、第一个logstash程序
14、logstash简单命令介绍
15、配置文件说明
16、input插件file的详解

2-4 logstash于kafka对接

17、logstash于kafka对接
18、将游戏日志对接到kafka中
19、logstash从kafka中读取数据
20、点击流日志对接kafka

2-5 es的快速入门

21、将游戏日志对接到hdfs
22、讲数据对接es的步骤（后面实现）
23、es的简介
24、es的安装详解
24、es的插件安装
25、es的快速入门
26、es的复杂查询举例

2-6 kafka数据对接到es

27、将kafka数据对接到es中
28、将kafka数据对接到es中(下)
29、将游戏操作日志对接到kafka中
30、将kafka游戏操作日志对接到es中

2-7 实现游戏指标的统计和外挂监控

31、spark从es中读取数据，实现游戏玩家分布（程序对接自己实现）
32、工具类介绍
33、游戏指标统计--日新增玩家
34、游戏指标统计--日活跃用户
35、游戏指标统计--玩家留存和留存率
36、游戏指标统计--总结
37、游戏外挂监控程序--顶药外挂
38、游戏外挂监控程序--顶药外挂运行结果

第三章 spark源码分析

3-1 下载源码及编译源码

1、master和worker启动的流程
2、下载spark源代码
3、编译spark源码，并且将源码导入到IDEA

3-2 master源码分析

4、spark程序的入口，start-all.sh脚本详解
4-2、Master和worker启动的整体流程详解图
5、Master的main方法执行逻辑
6、Master的主构造器中的执行逻辑
7、Master的actor的prestart方法执行逻辑
8、Master的actor的receive方法的执行逻辑

3-3 worker源码分析

9、Worker类的main方法的执行逻辑
10、Worker类的主构造器的执行逻辑
11、Worker的actor的prestart方法的执行逻辑

3-4 master和worker通信

12、Worker向master注册节点信息的执行逻辑
13、Worker和Master之间的心跳处理流程
14、总结master和worker启动后的流程

3-5 任务的提交

15、Master的schedule方法触发的机制
15-2、任务提交后，执行前的逻辑详解
16、spark-submit脚本提交任务的执行逻辑
17、任务执行前框架进行的环境准备详解（任务分发调度、任务调度）
18、任务提交流程图详解
19、Master接收到ClientActor任务后，进行worker资源的分配
20、任务开始之前的准备阶段，DAG启动线程监听任务阻塞队列_clip
21、Master通知Worker启动executor
21-2、代码的action执行后，触发的任务提交流程图详解
22、通过transformation生成RDD和通过action提交任务
23、任务提交，开始划分stage之前的准备阶段

3-6 划分stage

24、划分stage
25、划分stage总结

3-7 将taskSet提交给executor，并执行任务

26、将stage封装到taskset中，提交给executor
27、executor执行任务
28、源码整体流程回顾

阶段七机器学习

展开

第一章就业课(2.0)-机器学习入门

1-1 机器学习概念入门

01-机器学习基础-课程设置及大数据和机器学习区别
02-机器学习基础-大数据时代究竟改变了什么
03-机器学习基础-大数据架构体系和机器学习在大数据架构位置
04-机器学习基础-以推荐系统为例
05-机器学习基础-人工智能应用场景
06-机器学习基础-人工智能各概念的区别和联系
07-机器学习基础-什么是机器学习问题
08-机器学习基础-基于规则的学习和基于模型的学习
09-机器学习基础-机器学习各概念详解
10-机器学习基础-机器学习概念补充及分类浅析
11-机器学习基础-监督学习详解
12-机器学习基础-无监督学习详解
13-机器学习基础-半监督学习详解
14-机器学习基础-强化学习和迁移学习
15-机器学习基础-机器学习三要素理解
16-机器学习基础-机器学习模型选择
17-机器学习基础-进入机器学习最佳时机

1-2 机器学习数学基础

01-高中基础
02-sigmod函数求导
03-tanh函数
04-凸函数
05-机器学习高数必备

第二章就业课(2.0)-机器学习语言基础之Python语言

2-1 机器学习语言基础之Python语言(上)

01.课前小序
02-机器学习语言基础-昨日回顾
03-机器学习语言基础-昨日回顾(2)
04-机器学习语言基础-昨日补充
05-机器学习语言基础-Python基础介绍
06-机器学习语言基础-Python安装及第三方库使用
07-机器学习语言基础-安装Anaconda及组件介绍
08-机器学习语言基础-jupyter详解
09-机器学习语言基础-Pycharm和Anaconda整合
10-机器学习语言基础-Python3编码和解码原理
11-机器学习语言基础-包的导入多种形式
12-机器学习语言基础-Python数据类型
13-机器学习语言基础-Python随机数和常变量表示
14-机器学习语言基础-Python输入详解
15-机器学习语言基础-Python格式化输出
16.机器学习语言-Python快捷键详解

2-2 机器学习语言基础之Python语言(下)

01-机器学习基础-昨日回顾
02-机器学习基础-四大数据结构详解
03-机器学习基础-list集合
04-机器学习基础-list函数详解
05-机器学习基础-tuple函数详解
06-机器学习基础-dict数据结构详解
07-机器学习基础-dict函数详解
08-机器学习基础-集合的内容
09-机器学习基础-列表表达式
10-机器学习基础-元祖和生成器推导式
11-机器学习语言基础-函数类型详解
12-机器学习语言基础-函数参数类型
13-机器学习语言基础-lambda和reduce含糊
14-机器学习语言基础-条件控制语句
15-机器学习语言基础-文件读写异常信息
16-机器学习语言基础-面向对象过程
17-机器学习语言基础-GUI程序设计

第三章就业课(2.0)-Python数据分析库实战

3-1 Python数据分析库实战(上)

1-机器学习基础-昨日回顾及作业1
2-机器学习基础-卷积操作实践1
3-机器学习基础-卷积操作实践2
4-机器学习基础-随机数创建方式
5-机器学习基础-array创建方式
6-机器学习基础-矩阵的其他创建方式
8-机器学习基础-矩阵的分析方法
9-机器学习基础-矩阵的运算及分解实战详解
10-机器学习基础-Series
11-机器学习基础-DataFrame的详解
12-机器学习基础-Pandas统计计算实践
13-机器学习基础-Pandas的读取文件操作

3-2 Python数据分析库实战(下)

01-机器学习语言基础-昨日回顾及今日重点
02-机器学习语言基础-矩阵基础知识详解
03-机器学习语言基础-了解其他矩阵
04-机器学习语言基础-矩阵分解
05-机器学习语言基础-特征降维及PCA引入
06-机器学习语言基础-新坐标基的表示
07-机器学习语言基础-PCA算法思想及步骤
08-机器学习语言基础-PCA算法举例
09-机器学习语言基础-PCA实践
10-机器学习语言基础-matplotlib绘图基础
11-机器学习语言基础-Matlotlib绘制不同图形
12-机器学习语言基础-Grid和legend实战
13-机器学习语言基础-基础方式绘制图形
14-机器学习语言-面相对象方式绘制及总结

第四章就业课(2.0)-用户标签预测项目实战

4-1 用户画像标签预测实战

01-机器学习应用-昨日回顾与今日重点
02-机器学习应用-用户画像基础回顾
03-机器学习应用-理解用户画像数据
04-机器学习应用-应用标签系统
05-机器学习应用-用户画像建模基础
06-机器学习应用-决策时引入
07-机器学习应用-基于规则建树
08-机器学习应用-构建决策树三要素及熵定义
09-机器学习应用-ID3算法及改进
10-机器学习应用-剪枝
11-机器学习应用-如何计算信息增益举例
12-机器学习应用-相亲数据集实战
13-机器学习应用-相亲数据集实践改进
14-机器学习应用-iris鸢尾花识别
15-机器学习应用-手写体识别数据

4-2 集成学习算法

01-数据挖掘实战-昨日回顾1
02-数据挖掘实战-昨日回顾2
03-数据挖掘实战-Gini系数详解
04-数据挖掘实战-Cart树举例
05-数据挖掘实战-Gini系数演变过程
06-数据挖掘实战-集成学习分类
07.数据挖掘实战-随机森林原理详解
08-数据挖掘实战-Bagging算法
09-数据挖掘实战-模型偏差和方差理解
10-数据挖掘实战-Adaboost算法详解
11-Adaboost算法数学原理
12-数据挖掘实战-Adaboost算法原理举例
13-数据挖掘实战-Adaboost算法推广到多分类
14-数据挖掘实战-GBDT算法了解
15-数据挖掘实战-实战

4-3 数据挖掘项目:构建人才(用户)流失模型

01-数据挖掘项目-昨日回顾
02-数据挖掘项目-昨日回顾2
03-数据挖掘项目-项目需求说明及架构
04-数据挖掘项目-数据导入及分析
05-数据挖掘项目-数据展现
06-数据挖掘项目-不同类型数据的处理及数据切分
07-数据挖掘项目-类别型数据处理
08-数据挖掘项目-类别型数据的DictVec处理
09-数据挖掘项目-特征组合以及建模
10-数据挖掘项目-不平衡数据处理

第五章就业课(2.0)-推荐系统

5-1 推荐系统入门

01-推荐系统-昨日回顾及总结
02-推荐系统-模型保存
03-推荐系统-交叉验证方法
04-推荐系统-网格搜索
05-推荐系统-管道pipeline
06-推荐系统-什么是推荐系统及了解推荐引擎
07-推荐系统-推荐系统算法简介
08-推荐系统-用户的相似度和物品相似度度量
09-推荐系统-相似度计算
10-推荐系统-UserCF
11-推荐系统-itemCF
12-推荐系统-UserCF和ItemCF区别和联系
13-推荐系统-代码讲解
14-推荐系统-UserCF代码实战
15-推荐系统-ItemCF
16-推荐系统-架构设计

5-2 推荐案例实战(上)

01-推荐系统-昨日回顾及重点
02-推荐系统-基于KNN推荐详解
03-推荐系统-基于surprise库API实践
04-推荐系统-基于surprise电影推荐
05-推荐系统-基于SVD分解
06-推荐系统-音乐推荐
07-推荐系统-SaprkMllib简介
08-推荐系统-SparkMLLIB的Vec
09-推荐系统-SparkMLLIB基本数据类型及统计量实现
10-推荐系统-SparkMLLIB特征处理
11-推荐系统-SparkMLLIB随机森林及GBDT
12-推荐系统-LFM隐因子分解理论基础
13-推荐系统-SparkALS推荐
14-推荐系统-SparkALS代码实战
15-推荐系统-电商数据推荐案例实战

5-3 推荐案例实战(下)

01-推荐算法-昨日回顾
02-推荐算法-基于知识的推荐简介
03-推荐算法-使用关联挖掘算法的基础概念
04-推荐算法-Apriori算法
05-推荐算法-候选项集产生其他方法
06-推荐算法-Apriori算法举例
07-推荐算法-Aprori算法和FPGrowth算法总结
08-推荐算法-FPGrowth算法Spark实现详解
09-推荐算法-FPGrowth实战推荐算法项目
10-推荐算法-基于内容的推荐简介
11-推荐算法-朴素贝叶斯算法及推荐适应
12-推荐算法-图数据库

第六章就业课(2.0)-CTR点击率预估实战

6-1 CTR点击率预估实战

01-推荐算法-昨日回顾
02-推荐系统-Ctr业务描述
02-推荐系统-混合推荐算法(架构)
03-推荐系统-推荐系统评测方法
04-推荐系统-推荐项目实例简介
05-推荐系统-天池比赛
06-推荐系统-LR基础
07-推荐系统-LR原理详解
08-推荐系统-各大平台使用Ctr技术架构
09-推荐系统-Ctr的前沿技术

第七章就业课(2.0)-机器学习面试必备

7-1 机器学习面试必备

10-推荐系统-简历写法及注意事项

阶段一 基础增强

第一章 就业课(2.0)-基础巩固

第二章 就业课(2.0)-JVM优化(上)

第三章 就业课(2.0)-JVM优化(中)

第四章 就业课(2.0)-JVM优化(下)

阶段二 hadoop 离线分布式系统

第一章 就业课(2.0)-hadoop环境搭建2.0

第二章 就业课(2.0)-hdfs

第三章 就业课(2.0)-mapreduce

第四章 就业课(2.0)-yarn

第五章 就业课(2.0)-hive

第六章 就业课(2.0)-辅助系统工具

第七章 就业课(2.0)-网站点击流项目

第八章 就业课(2.0)-impala

第九章 就业课(2.0)-HUE

第十章 就业课(2.0)-oozie