云计算之大数据在线就业班 2017年版章节-大数据就业班-博学谷

优惠报名

云计算之大数据在线就业班 2017年版

本课程适合于有一定javaSE基础知识(不需要了解jsp/servlet等web内容，对SSH框架无要求)，对数据库和sql语句有一定了解，熟练使用linux系统的学生，特别适合于大专院校计算机专业的学生，学习过各类视频教程的未就业人士以及在职程序员。

第一章大数据技术基础

1-1 大数据课程介绍

01.课程介绍免费试学

1-2 linux操作基础

02.linux操作系统简介免费试学
03.vmware软件使用及linux系统安装免费试学
04.linux系统的图形界面及目录结构介绍免费试学
08.linux的文件夹和目录操作--创建--移动--改名免费试学
06.linux中安装软件的四种常见方式免费试学
09.linux的yum方式软件安装及私有yum源配置免费试学
13.linux中的定时任务调度器crontab的配置免费试学
05.linux系统的网卡配置步骤免费试学
09.安装linux的过程中可能遇到的问题及排查解决办法免费试学
07.linux操作基本日常命令免费试学
10.vmware中的三种联网模式----nat--bridge--hostonly 免费试学
15.linux中的文件权限管理命令--chmod--chown 免费试学
06.利用securecrt远程登录linux服务器免费试学
11.创建文件的操作命令touch--重定向--vi编辑器免费试学
12.文本文件的查看命令--cat--more--less--tail--head 免费试学
13.文件的打包压缩及解压--gzip--tar 免费试学
16.普通用户的sudo权限配置免费试学
14.文件的搜索命令--find--grep 免费试学
17.linux中挂载存储设备--光驱--光盘镜像文件免费试学
02.linux日常系统管理指令--服务管理--进程管理免费试学
07.linux中的java软件安装--jdk--tomcat 免费试学
05.linux的网络管理操作指令--主机名--ip--网络服务--防火墙免费试学
10.linux的源码工程编译安装方式--redis安装免费试学
08.linux中的rpm软件安装--mysql 免费试学
11.linux防火墙的规则配置命令免费试学
12.linux中的高级文本处理命令--cut--sed--awk 免费试学
03.linux的免密ssh登陆工作机制及配置步骤免费试学
04.linux的免密ssh登陆补充说明免费试学

1-3 shell编程

19.shell编程案例——自动化批量部署软件
20.shell编程案例--批量脚本测试之前的http服务器故障解决
18.shell编程之函数定义及使用
14.shell编程概念介绍及变量定义--关于脚本运行与shell进程之间的关系
15.shell编程的变量定义补充——几个特殊变量
16.shell编程流程控制语句--if--条件判断表达式的语法规则
17.shell编程流程控制语句--while--for--case
21.shell编程案例--批量部署脚本的测试运行

1-4 分布式协调服务zookeeper

02.什么是分布式系统中的协调服务
03.zookeeper在各种分布式协调场景中的应用
05.zookeeper集群安装--虚拟机准备
04.zookeeper的功能介绍
06.zookeeper集群安装--配置修改--自动启动脚本编写
09.zookeeper的命令行客户端使用----zookeeper的数据节点的增删改查---事件监听
07.zookeeper自身的一些特性
08.zookeeper的数据结构解析--znode--临时节点--永久节点--顺序节点
13.分布式共享锁的需求及实现思路
14.分布式共享锁的实现及运行测试
11.服务器动态上下线感知案例--需求--分析--实现
12.服务器动态上下线感知案例----程序运行测试
15.zookeeper集群的leader选举机制
10.zookeeper的java客户端api(1)
10.zookeeper的java客户端api(2)

1-5 内存数据库redis

02.redis服务器启动为后台模式--命令行客户端操作string数据类型
16.nosql数据库的概念介绍
01.redis的特性介绍
03.string类型数据结构的api操作及对象缓存应用
04.简单任务调度队列的需求解析及实现思路
06.hash数据结构的api操作及购物车模拟实现
07.set数据结构的api操作
08.sortedset数据结构的功能和api操作
09.sortedset数据结构应用案例--热门排行榜
10.基于redis实现一个推荐系统的设计思路
11.基于redis的推荐系统----代码实现
05.list数据结构的应用--简单任务调度队列的代码实现

1-6 java高级特性增强

12.java增强--线程实现基本方式
13.java增强--线程同步--sychronized--lock
15.java增强--线程池的使用
14.java增强--线程同步--读写锁readwritelock
16.java增强--消息队列--blockingqueue
18.java增强--java的反射api操作
01.动态代理的工作机制解释
17.java增强--消息服务中间件--activeMQ
02.动态代理的例子实现

1-7 轻量级RPC框架开发

03.socket编程的模型介绍--bio--aio--nio
04.同步阻塞IO的编程模型
05.nio的原理介绍
06.nio的编程模型之---服务端
07.nio的编程模型之--重新梳理
08.nio的编程模型之--客户端编程
11.netty框架编程模式实例之----发送对象数据
09.netty框架介绍及服务端编程模型
12.自定义RPC框架的需求分析
13.自定义rpc框架的实现之技术点----spring对象实例化过程
14.自定义rpc框架的实现之技术点----通过spring获取加了自定义注解的类的实例
15.自定义rpc框架的整体实现架构
16.自定义rpc框架的服务端框架封装
17.自定义rpc框架的服务端工作流程
18.自定义rpc框架的客户端实现及工作流程
19.自定义框架的应用程序运行测试
10.netty框架编程模型之----报文处理handler及客户端编程模型
20.自定义rpc框架提供给用户使用时的依赖管理

第二章 hadoop离线计算系统

2-1 hadoop入门

离线阶段课程整体介绍
大数据、云计算、hadoop相关概念介绍
hadoop三大组件介绍和产生背景
大数据应用场景和就业形势介绍
分布式系统介绍--HDFS模拟实现思路
分布式系统介绍--HDFS模拟实现思路补充
分布式系统介绍--MapReduce模拟实现思路
分布式系统介绍--yarn模拟实现思路
分布式系统介绍--三大组件总结以及关系介绍1
分布式系统介绍--三大组件总结以及关系介绍2
分布式系统介绍--三大组件总结以及关系介绍3
离线分析系统的项目结构和数据处理流程简介
离线分析系统典型案例介绍--精准广告推送平台解决方案
hadoop集群安装--集群节点介绍、基础环境要求
hadoop集群安装--静态ip修改、crt相关配置
hadoop集群安装--如何快速克隆虚拟机
hadoop集群安装--linux系统设置、JDK安装
hadoop集群安装--hadoop安装目录讲解
hadoop集群安装--hadoop配置文件讲解
hadoop集群安装--hdfs集群两种启动方式+UI讲解
hadoop集群安装--yarn集群启动方式+mr程序测试

2-2 HDFS

回顾hdfs的基本工作机制
hdfs的概念跟特性回顾讲解
hdfs的命令行操作常用命令1
hdfs的命令行操作常用命令2
hdfs实际开发中使用的场景
java操作hdfs环境搭建以及环境测试
hdfs客户端权限身份伪造的问题
windows平台下开发hadoop需要注意的细节
hdfs客户端操作--用流api进行文件上传
hdfs客户端操作--用流api进行文件下载
hdfs客户端操作--目录操作、查看文件夹以及文件信息
hdfs客户端操作--客户端流式操作的代码实现
hdfs客户端操作--上传文件（写数据）流程
hdfs客户端操作--下载文件（读数据）流程
NAMENODE工作机制--元数据管理--三种存储机制
NAMENODE工作机制--元数据管理--checkpoint过程
NAMENODE工作机制--利用原理来分析解决生产中可能遇到的问题和现象
日志采集汇聚案例----需求----实现流程
日志采集汇聚案例----shell脚本实现
日志采集汇聚案例----运行测试

2-3 MapReduce入门

回顾昨天的内容
hadoop的RPC框架讲解
第一个mapreduce程序--单词统计概述
第一个mapreduce程序--Mapper的实现
第一个mapreduce程序--Reducer的实现
第一个mapreduce程序--客户端job提交类的编写实现
第一个mapreduce程序--集群运行模式（hadoop jar）
第一个mapreduce程序--本地运行模式和debug过程
第一个mapreduce程序--本地运行提交到yarn执行可行性分析
MapReduce运算框架主体工作流程
mapreduce编程案例--流量汇总--自定义对象的序列化方法
mapreduce编程案例--流量汇总--mapper实现
mapreduce编程案例--流量汇总--reducer实现
mapreduce编程案例--流量汇总--jobDriver实现及提交运行
mapreduce编程案例--流量汇总--按总流量倒序排序代码实现
mapreduce编程案例--流量汇总--按总流量倒序排序程序运行

2-4 MapReduce详解

昨天内容回顾
流量汇总排序在一个mr-job中完成
流量汇总分省份输出案例----自定义partitioner
partitioner组件细节--reduce Task个数跟partition分区个数关系
Combiner组件的用法及注意事项
mapreduce工作机制详解--maptask端的机制
mapreduce工作机制详解--Reducetask端的机制
mapreduce工作机制详解--mapreduce工作机制详解----shuffle的含义
maprecduce运算框架中用户可自定义的组件总结
maptask并行度机制--切片的原理
maptask并行度机制--切片大小参数设置、debug跟踪
maptask并行度机制优化经验之谈、reduceTask并行度决定
mapreduce编程案例--倒排索引--需求分析
mapreduce编程案例--倒排索引--步骤1代码
mapreduce编程案例--倒排索引--步骤2代码
mapreduce编程案例--共同好友--需求思路
mapreduce编程案例--共同好友--实现步骤1
mapreduce编程案例--共同好友--实现步骤2

2-5 MapReduce加强

mapreduce编程案例--join算法--实现思路（map端、reduce端）
mapreduce编程案例--join算法--map端join算法代码实现
mapreduce编程案例--join算法--Map端join算法运行和注意事项
mapreduce编程案例--TopN问题--Groupingcomparator使用思路
mapreduce编程案例--TopN问题--Top1代码讲解运行
mapreduce编程案例--TopN问题--TopN代码讲解运行
mapreduce编程案例--josn解析
mapreduce编程案例--运营商日志增强--需求分析
mapreduce编程案例--运营商日志增强--代码主体程序
mapreduce编程案例--运营商日志增强--自定义OutPutFormat
mapreduce编程案例--运营商日志增强--环境准备、运行测试
MapReduce跟Yarn的交互过程----完整详解
yarn三种资源调度器
mapreduce参数优化讲解
修改YARNRuner源码本地提交mr到Yarn
全局计数器和job串联
mapreduce数据压缩
HDFS的HA机制
HA机器部署--节点规划--机器克隆
HA机器部署--环境准备--配置文件修改（含federation机制讲解）
HA机器部署--配置文件修改--集群启动步骤详解
HA下java操作hdfs代码变化和HA性能测试

2-6 Hbase

01、hbase介绍
02、hbase表结构逻辑视图--整体结构--cell--行健
03、hbase表结构之--列族--列--cell--时间戳
04、Hbase集群架构介绍
05、Hbase集群搭建和web页面介绍
06、Hbase的shell客户端基本使用--表的初体验
07.hbase的客户端基本使用get查询数据-删除数据-修改数据-版本号-删除表
08.hbase的java客户端代码编写----获取连接----建表
09.hbase的java客户端代码编写----删除表---修改表的schema
10.hbase的java客户端代码编写----put插入数据、get获取数据、delete删除数据
11.hbase的java客户端代码编写----scan批量查询数据
12、hbase的java客户端代码编写--过滤器的使用
13、hbase的java客户端代码编写--分页过滤器查询
14、hbase的工作机制--region的概率和机制
15.menstore以及如何快速判断一条数据是否落在某个storefile-bloomfilter
16.hbased的工作机制----数据如何更新----文件的compact概念---hlog日志
17.hbased的工作机制----物理存储机制的概念梳理
18.hbase的工作机制----客户端寻址
19、hbase工作机制--读写过程
20、hbase的高级应用
21.mapreduce读写取hbase中的数据进行数据分析
22、hbase的二级索引实现方式--协处理器
23、通过协处理器的observer实现二级索引代码编写--运行---测试

2-7 hive

hive介绍
hive架构说明
hive与hadoop之间的关系以及包含的数据模型
hive的安装部署
hive的使用方式--hive、hiveserver2、beeline
hive创建表以及如何加载数据到hive表中
hive内部表跟外部表之间的区别
hive分区表的使用
hive指定表的存储格式stored as
hive表的DDL操作--修改表
hive显示命令
hive的DML操作load
hive的DDL操作insert
hive的DDL操作-select语句
hive的桶表
hive桶表的实际应用
hive中的join操作
hive中集合类型
hive中的严格模式和非严格模式
hive shell参数使用说明
hive函数介绍以及自定义UDF函数
hive自定义UDF函数解析json格式的数据
hive自定义函数-transform实现
hive中多个字符分隔符处理--RegexSerDe
hive中多个字符分隔符处理-自定义inputformat
hive中累计求和的sql套路分析

2-8 flume

离线数据分析系统通用结构及所涉及的技术框架
flume的介绍和运行机制
Flume采集系统结果图
Flume的安装部署以及初使用
Flume常用的source、sink、channel介绍
Flume采集目录文件到HDFS
Flume采集文件到HDFS
Flume常用的拦截器介绍
Flume中多个agent串联
Flume的高可用故障转移failover
Flume的高可用配置loadbalance
Flume的日志分类采集汇总
Flume自定义拦截器--实现字段过滤和加密
Flume实际使用时需要注意的事项说明

2-9 azkaban和sqoop

azkaban的工作流调度器介绍
azkaban的安装部署
azkaban启动以及界面元素菜单介绍
azkaban的使用--简单的job创建执行
azkaban的使用---多个job依赖形成工作流
azkaban的使用---HDFS操作任务
azkaban的使用---mapreduce任务
azkaban的使用---hive脚本的任务
sqoop的介绍和工作机制
sqoop的安装部署
sqoop数据导入案例（上）
sqoop数据导入案例（下）
sqoop数据导出案例
sqoop的作业和代码定制介绍

2-10 网站点击流日志分析项目

web访问日志介绍
web访问日志分析----点击流数据模型
web访问日志分析----流量数据分析的意义
web访问日志分析----流量分析模型
网站数据分析----流量分析常见指标
网站点击流数据分析平台架构
网站点击流数据平台开发----数据采集系统
网站点击流数据平台开发----数据预处理
网站点击流数据平台开发-----数据预处理
网站点击流数据平台开发----生成点击流模型表Pageview
网站点击流数据开发平台----生成模型表Visits表
网站点击流数据开发平台----数据预处理调度脚本开发
网站点击数数据开发平台----数据仓库设计和模型表数据导入
网站点击流数据开发平台----明细宽表的生成
网站点击流数据开发平台----流量分析--多维度统计pv
网站点击流数据开发平台----流量分析--分组取topN和人均游览页面数
网站点击流数据开发平台----受访分析--热门页面统计分析
网站点击流数据开发平台---访客分析--独立访客--新访客
网站点击流数据开发平台---访客visit分析--回头访客--访客忠诚度
网站点击流数据开发平台--关键路径转化率分析--漏斗模型
网站点击流数据开发平台--结果导出--工作流程调度--数据可视化展现

第三章流式计算

3-1 第1节：Storm从入门到精通

1、Storm编程快速入门-什么是离线计算
2、Storm编程快速入门-实时计算代表性技术及如何实时获取数据
3、Storm编程快速入门-Storm如何实时计算数据
4、Storm编程快速入门-Storm单词计算需求分析
5、Storm编程快速入门-在idea中创建storm项目并导入依赖
6、Storm编程快速入门-编写WordCount的MyLocalFilterSpout类
7、Storm编程快速入门-编写WordCount的MySplitBolt类
8、Storm编程快速入门-编写WordCount的MyWordCountBolt类
9、Storm编程快速入门-编写Storm TopologyBuilder驱动类及本地模式运行与调错
10、Storm编程快速入门-Storm WordCount在集群模式下运行及打包注意事项
11、Storm编程快速入门-Storm并行度的概念
12、Storm编程快速入门-Storm分组的概念
15、Storm编程快速入门-Storm集群安装部署示意
19、Storm集群启动及任务执行过程-集群启动过程分析之python脚本storm的分析
20、Storm集群启动及任务执行过程-集群启动过程分析之supervisor启动worker的分析
18、Storm编程快速入门-从零开始整合kafka+storm+redis，并调试遇到错误
21、Storm集群启动及任务执行过程-Client任务提交过程分析
22、Storm集群启动及任务执行过程-Nimbus任务分配过程分析
23、Storm集群启动及任务执行过程-梳理任务提交、任务分配及worker启动流程
24、Storm集群启动及任务执行过程-worker启动Task过程分析
25、Storm核心机制-Ack机制概述
26、Storm核心机制-Ack机制编程之AckSpout类编写
27、Storm核心机制-Ack机制编程之Bolt类的实现
28、Storm核心机制-Ack机制编程之验证消息处理成功和失败后的状态
29、Storm核心机制-Ack机制编程API总结及不需要手动锚点的BaseBasicBolt接口
13、Storm编程快速入门-Storm Local or Shuffle Grouping分组策略及worker的默认值，组件并行度的默认值
16、Storm编程快速入门-Storm的Nmbus、Ui、Supervisor、Worker组件介绍及任务提交的简单过程
30、Storm核心机制-ACK机制编程之BaseBasicBolt演编写，不需要手动锚点和反馈
31、Storm核心机制-ACK机制的实现原理--异或算法与Acker Bolt
32、Storm核心机制-Storm通信机制（Netty和Disruptor）
33、Storm核心机制-Storm数据分发机制
14、Storm编程快速入门-改变WordCount的worker数和每个组件的并行度，观察task的平均分配
17、Storm编程快速入门-Storm基础知识总结梳理（Storm是什么、Storm编程模型、Storm集群架构）

3-2 第2节：Storm上下游及架构集成

1、Storm上游消息平台Kafka-Kafka快速入门-Kakfa的基本介绍
2、Storm上游消息平台Kafka-Kafka快速入门-Kafka集群搭建
4、Storm上游消息平台Kafka-Kafka快速入门-Kafka生产者java api编写
5、Storm上游消息平台Kafka-Kafka快速入门-Kafka消费者java api说明
6、Storm上游消息平台Kafka-Kafka快速入门-Kafka partition的概念
14、Storm上游消息平台Kafka-Kafka快速入门-Kafka集群整体概念梳理
12、Storm上游消息平台Kafka-Kafka快速入门-了解Kafka为什么这么快（pagecahe,sendfile）
3、Storm上游消息平台Kafka-Kafka快速入门-通过Kafka脚本创建topic、并进行生产数据及消费
8、Storm上游消息平台Kafka-Kafka快速入门-producer端负责数据的分发，默认分发策略是hashpartition
11、Storm上游消息平台Kafka-Kafka快速入门-Partition的Segment段的说明及展示
15、Storm上游消息平台Kafka-day02-Kafka快速入门-kafkaKakfa配置文件说明
10、Storm上游消息平台Kafka-Kafka快速入门-Producer端自定义partition两个源码中的小细节
9、Storm上游消息平台Kafka-Kafka快速入门-Producer端自定义partition并配置运行的步骤
7、Storm上游消息平台Kafka-Kafka快速入门-Kafka partition的三个问题（partition有什么用，数据丢失怎么办，leader的作用）
13、Storm上游消息平台Kafka-Kafka快速入门-kafka consumer及consumerGroup的概念
16、Storm上游消息平台Kafka-数据从kakfa生产到storm消费阶段不丢失和重复消费的分析
17、Storm上游消息平台Kafka-打通实时计算技术架构-模拟Nginx+flume数据采集+Kafka集群+Storm+Redis

3-3 第3节：日志告警系统项目实战

1、日志监控告警系统需求说明
3、日志监控告警系统功能分析-Flume日志采集模块设计（appid申请及flumeNg部署流程）
5、日志监控告警系统功能分析-Kafka日志存储模块设计（分片数量，broker数量，集群容量）
7、日志监控告警系统功能分析-Storm实时计算模块设计-整体流程设计
8、日志监控告警系统功能分析-Storm实时计算模块设计-定时更新模块设计
9、日志监控告警系统功能分析-数据库表结构设计（表结构说明及sql语句）
10、日志监控告警系统功能分析-后台管理操作说明
11、日志监控告警系统功能分析-系统整体流程梳理
4、日志监控告警系统功能分析-Flume日志采集模块开发-编写flume配置文件及开发自定义拦截器并打包部署
12、日志监控告警系统功能分析-通过debug的方式运行并演示程序
14、日志监控告警系统功能分析-定时加载和每个worker中只加载一次
15、日志监控告警系统功能分析-其他代码说明（数据库C3P0、发短信、发邮件）
16、日志监控告警系统功能分析-项目核心知识点总结
6、日志监控告警系统功能分析-Kafka日志存储之创建Topic
13、日志监控告警系统功能分析-代码整体流程说明及避免重复告警
2、日志监控告警系统功能分析

3-4 第4节：流量日志分析项目实战

1、Storm点击流日志分析系统-内容概述
3、Storm点击流日志分析系统-点击流日志产生的过程
2、Storm点击流日志分析系统-网站分析宏观认识
4、Storm点击流日志分析系统-点击流实时分析系统架构分析
5、Storm点击流日志分析系统-点击流数据说明-数据分析案例-转化说明
7、Storm点击流日志分析系统-日志分析系统流程梳理
9、Storm点击流日志分析系统-Storm程序运行演示
11、Storm点击流日志分析系统-程序集成显示及调错
10、Storm点击流日志分析系统-增量程序计算逻辑及cachedata说明
12、Storm点击流日志分析系统-模拟产品经理输入
6、Storm点击流日志分析系统-Storm程序设计及增量程序设计
8、Storm点击流日志分析系统-日志分析系统-Storm代码梳理

3-5 第5节：电商交易风控项目实战

1、电商实时交易风控系统-项目概述及重点
2、电商实时交易风控系统-了解业务风险点-电商网站为什么要刷单
4、电商实时交易风控系统-了解业务风险点-刷单处理策略及降权因素初步分析
6、电商实时交易风控系统-了解业务风险点-电商信用卡的套现
5、电商实时交易风控系统-了解业务风险点-一般商家刷单流程的梳理
7、电商实时交易风控系统-设计实现-项目整体分析（需求分析、功能分析）
9、电商实时交易风控系统-设计实现-规则表结构设计
10、电商实时交易风控系统-设计实现-开发进度的规划
3、电商实时交易风控系统-了解业务风险点-银行信用卡的风险点
11、电商实时交易风控系统-设计实现-其他表结构及sql脚本
8、电商实时交易风控系统-设计实现-规则的组成分析

3-6 第6节：猜你喜欢推荐系统实战

1、从零开始构建推荐系统-基础理论-推荐系统基本概念
2、从零开始构建推荐系统-基础理论-推荐系统是什么？
3、从零开始构建推荐系统-基础理论-推荐系统的常见分类
4、从零开始构建推荐系统-基础理论-基于用户的系统过滤算法的原理介绍、计算逻辑分析、冷启动等问题
5、从零开始构建推荐系统-基础理论-基于物品的系统过滤算法的原理介绍、计算逻辑分析及问题
6、从零开始构建推荐系统-基础理论-其它推荐算法及混合推荐策略（不同阶段、不同位置）
7、从零开始构建推荐系统-基础理论-推荐系统的应用场景及京东淘宝网站的架构
8、从零开始构建推荐系统-设计实现-数据采集方案
10、从零开始构建推荐系统-设计实现-离线推荐算法的整体架构
13、从零开始构建推荐系统-设计实现-从零开始构建推荐系统-算法模型中相似度计算和最近领域选择
14、从零开始构建推荐系统-设计实现-在Hadoop上提交mahout推荐Job并解决集群时间不同步的异常
15、从零开始构建推荐系统-设计实现-查看Mahout MR程序的输出结果
23、从零开始构建推荐系统-设计实现-去重多个模型的推荐结果集
24、从零开始构建推荐系统-设计实现-推荐系统总结梳理（技术方向、业务方向）
18、从零开始构建推荐系统-设计实现-增加实时标签影响用户的推荐结果（离线结果有一定的延迟，用户感兴趣的是当前正在浏览的商品）
20、从零开始构建推荐系统-设计实现-通过debug方式演示推荐引擎的代码逻辑-整体流程
11、从零开始构建推荐系统-设计实现-离线数据归一化处理
16、从零开始构建推荐系统-设计实现-使用Mahout Java Api开发协同过滤推荐引擎
17、从零开始构建推荐系统-设计实现-使用Mahout离线推荐结果实现推荐逻辑并完善推荐引擎（默认推荐结果、结果补全、过滤、丰富性控制、排序）
19、从零开始构建推荐系统-设计实现-猜你喜欢推荐模块（推荐位排序，多个推荐模型）
21、从零开始构建推荐系统-设计实现-从Redis中获取离线推荐结果集，并判断上下线状态
22、从零开始构建推荐系统-设计实现-结合物品相似度（协同过滤、内容）与用户当前浏览的商品进行实时推荐
9、从零开始构建推荐系统-设计实现-通过小偷程序保存数据到Hadoop HDFS集群
12、从零开始构建推荐系统-设计实现-从零开始构建推荐系统-使用MapReduce对数据进行归一化处理及选用数据的误区

第四章内存计算体系spark

4-1 第1节：scala编程

01spark与hadoop的简单比较
02scala简介
03scala编译器安装
06scala插件安装问题
04scala开发工具和插件安装
05利用IEDA编写scala程序
07scala变量定义
08scala循环
09scala的判断
11scala方法的定义
10scala操作符重载
17.scala的映射
18元组
15函数和方法总结
12定义函数
14将方法转换成函数
16.scala数组常用方法
19.scala集合
13.函数的定义2
01并行集合
02scala定义类
05apply方法
06继承和实现特质
04单例对象
08option类型
10actor编程
07模式匹配
03scala构造器
01隐式转换简介
09偏函数
05上下文界定-隐式转换
12.用Actor编写一个WordCount程序
02隐式转换入门
08柯里化
11java的Future回顾
03scala的泛型
20.scala单机版WordCount
04隐式转换-视图界定
06隐式转换加强

4-2 第2节：AKKA与RPC

01akka的简介1
04RPC通信的需求
02akka简介2
03.akka通信小例子
05Akka自定义RPC-1
06Akka自定义RPC-2
07Akka自定义RPC-3

4-3 第3节：spark入门

2、spark官方文档详解和如何通过官方文档学习spark
1、复习scala
3、安装standalone模式的spark--单master
4、安装standalone模式的spark--多master
5、spark-shell的单机执行和集群执行模式、shell版wordcount
6、在spark-shell中运行集群wordcount
7、spark-shell从hdfs读取数据
8、通过scala的api写wordcount，将结果输出到不同的数据源
9、在集群提交运行spark任务
10、spark入门总结
11、python写spark，并运行在集群上
12、java写spark，并运行在本地
13、R写spark，并运行在集群
14、提前预习RDD相关概念
15、复习

4-4 第4节：sparkRDD

1、复习spark第一天
2、RDD的概念
3、通过RDD的转换方式对RDD详细解释
4、RDD的transformation算子（上）
5、RDD的Action算子讲解
6、RDD的练习

4-5 第5节：Spark案例1

7、iplocation的需求
8、iplocation的代码实现
9、将数据结果分区保存数据库
10、复习

4-6 第6节：Spark离线提高知识点

1、复习+宽依赖窄依赖+stage划分+集群运行原理
2、问题1
3、如何设置cache、如何设置checkpoint
4、问题2

4-7 第7节：Spark案例2

5、PV案例
6、UV案例
7、pv、uv的环比分析
8、topk案例

4-8 第8节：Spark案例3

9、moblelocation需求分析
10、代码实现--计算多余时间
11、代码实现-计算家庭地点和工作地点

4-9 第9节：Spark-sql

12、spark-sql简介
13、spark-sql入门
14、datafrom简单操作
15、spark-sql的命令行创建表
16、spark-sql的api操作的两种模式
17、总结sql

4-10 第10节：Saprk-sql提升

1、复习SQL
2、学习目标
3、通过spark-sql加载mysql的数据和表结构
4、spark-sql读取mysql数据验证sql语句
5、spark-sql操作mysql向数据库写数据
6、spark-sql操作hive简介
7、hive on spark-sql
8、spark-streaming的介绍
9、R on spark

4-11 第11节：Saprk-streaming

10、spark-steaming的图解
11、通过tcp接收数据进行spark-streaming处理
12、updateStateByKey的讲解
13、window操作
14、扩展资料jedis源码
15、从flume中拉去数据到spark-streaming处理
16、flume想spark-streaming生产数据
17、spark-streaming从kafka中读取数据
18、总结SparkStreaming

4-12 第12节：spark综合案例-用ELK做Game analysis

1、课程目标以及网站部分指标介绍
2、日志分析整体流程
3、日志采集服务器采集方式简介
4、游戏背景介绍
5、数据来源
6、服务器部署情况
7、日志采集服务器的部署简介
8、日志分析流程总结
9、ELK工作栈的简介
10、logstash简介
11、logstash快速入门
12、logstash的工作原理
13、第一个logstash程序
14、logstash简单命令介绍
15、配置文件说明
16、input插件file的详解
17、logstash于kafka对接
18、将游戏日志对接到kafka中
19、logstash从kafka中读取数据
20、点击流日志对接kafka
21、将游戏日志对接到hdfs
22、讲数据对接es的步骤（后面实现）
23、es的简介
24、es的安装详解
24、es的插件安装
25、es的快速入门
26、es的复杂查询举例
27、将kafka数据对接到es中
28、将kafka数据对接到es中(下)
29、将游戏操作日志对接到kafka中
30、将kafka游戏操作日志对接到es中
31、spark从es中读取数据，实现游戏玩家分布（程序对接自己实现）
32、工具类介绍
33、游戏指标统计--日新增玩家
34、游戏指标统计--日活跃用户
35、游戏指标统计--玩家留存和留存率
36、游戏指标统计--总结
37、游戏外挂监控程序--顶药外挂
38、游戏外挂监控程序--顶药外挂运行结果

4-13 第13节：Saprk源码解析

1、master和worker启动的流程
2、下载spark源代码
3、编译spark源码，并且将源码导入到IDEA
4、spark程序的入口，start-all.sh脚本详解
4-2、Master和worker启动的整体流程详解图
5、Master的main方法执行逻辑
6、Master的主构造器中的执行逻辑
7、Master的actor的prestart方法执行逻辑
8、Master的actor的receive方法的执行逻辑
9、Worker类的main方法的执行逻辑
10、Worker类的主构造器的执行逻辑
11、Worker的actor的prestart方法的执行逻辑
12、Worker向master注册节点信息的执行逻辑
13、Worker和Master之间的心跳处理流程
14、总结master和worker启动后的流程
15、Master的schedule方法触发的机制
15-2、任务提交后，执行前的逻辑详解
16、spark-submit脚本提交任务的执行逻辑
17、任务执行前框架进行的环境准备详解（任务分发调度、任务调度）
18、任务提交流程图详解
19、Master接收到ClientActor任务后，进行worker资源的分配
20、任务开始之前的准备阶段，DAG启动线程监听任务阻塞队列_clip
21、Master通知Worker启动executor
21-2、代码的action执行后，触发的任务提交流程图详解
22、通过transformation生成RDD和通过action提交任务
23、任务提交，开始划分stage之前的准备阶段
24、划分stage
25、划分stage总结
26、将stage封装到taskset中，提交给executor
27、executor执行任务
28、源码整体流程回顾

第五章 python

5-1 python入门

运行环境-Python是什么
python版本选择-windows安装python
python语法基本类型
python数据结构-list操作
python数据结构-dict(map)
python数据结构-set
python数据结构-tuple
python控制语句
python控制语句中的continue和break关键字
面向对象-创建类（构造器，成员变量、方法、主函数）
面向对象-继承、多态及鸭子类型
面向对象-获取类的类型、方法和属性（类似java的反射）
常用代码-open方法进行文件读写操作
常用代码-时间转化及时间加减操作
常用代码-集合增强（namedtuple-deque）
常用代码-ordereddict-counter
常用代码-简单的网络爬虫
常用代码-网络通信（2）-tcp客户端编写、python编码格式转换（str-bytes转换）
网络通信（3）-server-client互发信息
邮件操作（1）-邮件发送
邮件操作（2）-接受邮件
邮件操作（3）-解析每逢邮件
数据库操作（1）-安装MySQLdb(跳坑)
数据库操作（2）-数据库的增删改查操作
20、常用代码-网络通信+多线程

5-2 Python项目实战-垂直爬虫开发

Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（1）-爬虫需求说明
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（2）-urllib.request回顾
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（3）-beautifulSoup基础学习
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（4）-beautifulSoup实战演练
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（5）-解析虎嗅网站的首页
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（6）-解析虎嗅的新闻页
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（7）-保存解析后的数据
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（8）-分页功能分析及代码开发1
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（9）-分页功能分析及代码开发2
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（10）-分页功能分析及代码开发3
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（11）-分页功能、代码重构、调试、完全运行
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（12）-爬虫演示及设置间隔时间
Python入门-Python项目实战-垂直爬虫开发-虎嗅爬虫（13）-项目总结

5-3 Python项目实战-单机游戏开发

Python入门-Python项目实战-单机游戏开发-打飞机（1）-需求说明
Python入门-Python项目实战-单机游戏开发-打飞机（2）-游戏窗口设置、背景图片设置、按键监听
Python入门-Python项目实战-单机游戏开发-打飞机（3）-显示用户飞机
Python入门-Python项目实战-单机游戏开发-打飞机（4）-飞机移动
Python入门-Python项目实战-单机游戏开发-打飞机（5）-画布清空解决飞机重影、发射子弹
Python入门-Python项目实战-单机游戏开发-打飞机（6）-敌机绘制及移动
Python入门-Python项目实战-单机游戏开发-打飞机（7）-重构子弹类，自动发射子弹、改变子弹发射的频率
Python入门-Python项目实战-单机游戏开发-打飞机（8）-项目目的说明和技术总结
Python入门-Python项目实战-单机游戏开发-打飞机（9）-面向对象开发创建飞机类、显示不同类型的飞机
Python入门-Python项目实战-单机游戏开发-打飞机（10）-面向对象开发创建子弹类（2）
Python入门-Python项目实战-单机游戏开发-打飞机（11）-面向对象开发调整敌机子弹位置
Python入门-Python项目实战-单机游戏开发-打飞机（12）-面向对象开发匹配敌机并让敌机自动发射子弹
Python入门-Python项目实战-单机游戏开发-打飞机（13）-面向对象开发绘制玩家飞机、监听事件实现发射子弹

第六章补充： maven （赠送福利）

6-1 Maven

什么是maven
Maven仓库
Maven下载及本地仓库配置
eclipse配置maven
Maven入门-创建工程
Maven入门-设置编译版本
添加依赖
Maven入门-项目声明周期
Maven入门-eclipse中命令使用
Maven入门-Maven命令
创建war工程
添加SSH依赖
SSH工程搭建-1
SSH工程搭建-2
定义变量
打war包
聚合
继承
聚合与继承的区别
多模块拆分规则
构建多模块Maven工程-创建父工程与子模块
构建多模块Maven工程-模块依赖与代码编写
构建多模块Maven工程-配置文件拆分
构建多模块Maven工程-打war包
依赖范围
依赖传递
依赖调节原则
版本锁定
排除依赖
单元测试-1
单元测试-2
什么是私服
私服软件nexus的安装
nexus-创建索引-1
nexus-创建索引-2
仓库类型
镜像配置-1
镜像配置-2
发布自己的jar到nexus
发布第三方的工程jar到私服
SVN准备工作
签入与签出单模块工程
签入maven多模块工程
签出maven多模块工程
Maven:总结

第一章 大数据技术基础

第二章 hadoop离线计算系统

第三章 流式计算

第四章 内存计算体系spark

第五章 python

第六章 补充： maven （赠送福利）

第一章大数据技术基础

第三章流式计算

第四章内存计算体系spark

第六章补充： maven （赠送福利）