本课程为学习对象0基础或者0经验的小白人员学员而准备,整个课程体系从java 基础开始,内容精准聚焦大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等重要内容;涵盖了大数据体系中几乎所有的核心技术,包含Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、Impala、Hue、Oozie、Flink、kafka、Spark、Scala、SparkSQL、Hbase等。同时我们也提供了机器学习以及云计算的课程为学员的日后发展和就业保驾护航。

学完收获:

本课程满足0基础学生学习大数据的需求,包含java常见技术以及大数据流行的框架。以案例驱动教学的方式,带领学习者层层深入到大数据体系的内核当中,通过本课程的学习,旨在使学员能够快速系统的熟悉大数据的应用场景、理解大数据技术原理、以及掌握大数据应用的技术方法,让学员能够游刃有余的从事大数据相关工作

具有编程开发经验,想要转行从事大数据相关工作的人员
具有编程开发经验,想要将大数据应用于实践的在职人员

亮点1

课程重磅升
级,技术热
点全覆盖

本次升级新增当下大数据应用
技术热点,使课程更全涵盖大
数据体系中的技术点,包括但
不限于Linux、Zookeeper、
Hadoop、Yam、Redis、HD
FS、MapReduce、Hive、lm
pala、Hue、Oozie、Storm
、Kafka、Spark、Soark RDD
、Spark SQL、Soark Stream
ing、Sqoop、Flume、CDH
、Scala、Hbase、Flink、机器
学习等,将离线数据分析、实
时数据分析和内存数据计算中
的技术点全面覆盖

亮点2

原理讲解深
入浅出,通
俗易懂

将晦涩难懂的理论一通俗易懂
的方式进行讲解,然后通过深
入分析源码让学员深入理解其
内在原理,在照顾基础薄弱学
习者的同时又融入核心技术点
加以实战,夯实了基础又快速
储备了丰富的实战经验

亮点3

实战项目/案
例贯穿始终,
边学边练
及时强化

此课程涵盖网站点击流日志分
析系统、统一监控告警系统、
用户画像、Flume 实战案例、
Azkaban实战案例、Hbase实
战案例和Hbase整合读写数据
等源于企业中的真实项目和案
例,以项目/案例驱动教学,将
真实实例贯穿到知识点中,学
中练、练中学、及时训练、及
时强化,让学习者更快掌握大
数据实战技术

阶段一 : Java基础

编程基础

DOS常用命令、Java概述、JDK环境安装配置、环境变量配置、Java程序入门
常量与变量、数据类型、运算符、流程控制语句、方法、数组

面向对象入门

面向对象思想、类与对象、成员变量和局部变量、封装、 this关键字、构造方法
Object类、Scanner类、Random类、String、StringBuilder类
集合概述、集合特点、ArrayList集合
字符输入流、字符输出流、字符缓冲输入流、字符缓冲输出流、 复制文件、集合与文件中数据相互读写

市场价值 : 具备JavaSE基本开发能力,但是还不能满足企业用人需求,可为后续JavaWeb的学习打下坚实基础

阶段二 : JavaWeb



Java基础增强

类加载器、反射、网络编程、端口和协议、TCP协议、服务端、客户端、多线程、线程和进程、线程的生命周期、线程安全、代码同步、注解、JDK常用注解、自定义注解

Java web 核心

HTML、CSS、JavaSript、BootStrap
MySQL数据库、MySQL单表操作、MySQL多表操作、MySQL事物、 MySQL存储引擎、JDBC、JDBCDataSource
Tomcat、Http协议、servlet入门、Rquest、Response、JSP、MVC、 Cookie、Session、JSP、ETLJSTL、Filter、listener
Jquery、Ajax、ajax跨域、分页
Maven项目构建、管理、编译、仓库配置、 Git项目管理

市场价值 : 具备JavaWeb开发能力,但是还不能满足企业用人需求,可为后续学习框架打下坚实基础

阶段三 : 主流框架

Spring 组件

Spring简介、Spring配置文件、Spring配置数据源 、Spring注解开发、AOP简介、AOP的实现方式、JdbcTemplate基本使用、Spring的事务控制

SpringMVC组件

Spring集成web开发环境、SpringMVC简介、SpringMVC组件解析、SpringMVC的数据响应、SpringMVC的请求参数绑定、SpringMVC的文件上传、SpringMVC的拦截器 、SpringMVC的异常处理

Mybatis组件

Mybatis快速入门、Mybatis基本增删改查操作、Mybatis核心配置文件、Mybatis的dao层实现原理、Mybatis映射文件深入-动态SQL、Mybatis核心配置文件深入、Mybatis的多表操作、Mybatis注解开发、SSM整合

市场价值 : 对热门的框架和SOA架构应用,便可掌握项目的构建并能够搭建企业级JavaWeb项目,为后期的项目做铺垫

阶段四 : 流行框架

Lucene组件

全文检索基本介绍、lucene入门案例中文分析器索引库维护

Spring Data JPA

JPA的引入、JPA的入门案例主键生成策略、JPA的基本操作

Spring Boot

spring boot 介绍、spring boot 入门、spring boot 原理分析、 spring boot 配置文件

市场价值 : 前后端分离开发成为企业中软件架构的新宠儿,而掌握微服务框架的使用、项目环境快速部署的人才已被互联网企业所重视。所以适应现互联网开发环境,学习微服务框架成为企业新需人才必要条件。

阶段五 : 大数据基础增强

linux操作基础

虚拟机的联网以及基础命令增强、linux的查找命令、linux的用户与用户组、linux的权限管理、linux系统服务管理、网络管理 、shell的变量定义、变量引用、算数运算符、流程控制语句、函数使用

Jvm 优化

熟悉jvm 参数,visualVM 工具,垃圾回收原理, JVM字节码分析等等

市场价值 : 能够完成中小型企业常见的自动化脚本

阶段六 : 大数据Hadoop离线分布式系统

大数据基础和 硬件介绍

大数据集群基本环境准备、大数据集群环境的基础准备

Hadoop 核心组件以及高级性能优化

HDFS组件详解以及实战、mapreduce 组件详解以及高级性能优化、Yarn组件详解以及多租户的实现、hive组件实战以及性能优化、impala组件实战以及性能优化sqoop常见问题详解

辅助系统工具

sqoop hue impala kudu oozie flume azkaban组件功能介绍、架构和原理、多个案例整合

网站流量日志分析项目

项目背景,日志埋点收集,数据预处理,数据入库,指标分析,统计分析,可视化

市场价值 : 本阶段匹配的工作岗位包括ETL工程师、任务调度工程师、Hive工程师、数据仓库工程师等。

阶段七 : 大数据 NoSQL、Kafka和ELK技术实战

NoSQL、Kafka和ELK技术实战

NoSQL介绍、Redis的原理和架构、 Redis的集群搭建、Hbase的应用场景、Hbase架构和原理以及RowKey设计和优化策略、HBase+Redis微博实战案例、Elasticsearch的功能、架构和原理以及ELK案例实战

市场价值 : 1、解决Hbase的RowKey高性能设计策略,满足业务的需求; 2、解决Hbase的性能瓶颈,解决业务问题对Hbase高性能的挑战; 3、解决企业里面海量数据实时传输的问题; 4、解决海量日志快速检索和监控问题。

阶段八 : 大数据 Spark 内存计算系统

Scala语言基础

Scala基础、声明变量、数据类型、条件表达式、块表达式、循环、方法和函数、数组、元组、集合、Iterator、构造器、伴生对象、akka

Spark入门以及集群搭建

Spark集群环境搭建,spark入门程序,RDD入门

SparkRDD

Spark的应用场景、架构和原理、入门案例、Spark Session讲解、RDD的概念和特性、Transformation RDD讲解、Action RDD讲解、Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制、RDD的广播操作、DAG思想、DAG的生成、DAG的处理过程、运行机制、Driver和Executor

Spark SQL

Spark SQL功能介绍、DataFrame、DataSet、RDD、Dataset和DataFrame的转换、读写Hive表数据、读写HDFS的数据、DataFrame的API操作、读取文件(txt、CSV、Json、parquet)、临时表、读写RDBMS、Spark SQL执行计划、Spark SQL的性能优化

SparkStreaming原理_运行过程_高级特性

sparkstring的功能介绍,架构,流计算Dstream运行原理

Structured Streaming_介绍_案例

Structured String的功能介绍、input功能、output功能、window操作、watermark操作、过期数据操作、去重数据操作、整合Socket数据、整合Kafka数据、OutputModel(Append\complete\update)功能、Flume+kafka+Structured Streaming实现用户访问行为的实时分析

DMP项目

Kudu应用场景,项目介绍, Kudu原理,cdh环境搭建,kudu整合spark开发,项目框架搭建,报表统计,商圈库功能。

市场价值 : 可从事Spark相关工作,包括ETL工程师、Spark工程师、Hbase工程师、用户画像系统工程师、大数据反欺诈工程师。

阶段九 : 大数据 Flink 实时计算系统

Flink基础介绍

Flink的运行机制、Flink组件和逻辑计划、Flink执行计划生成、JobManager中的基本组件、TaskManager、算子、网络、水印WaterMark、任务调度

flink高级进阶

flink的状态管理、CheckPoint、flinksql及flinkTableApi

Flink电商指标分析项目

上报服务系统开发、Flink实时数据分析系统开发、实时频道热点分析业务开发、实时频道PV/UV分析、实时频道用户新鲜度分析、实时频道地域分析业务开发、实时运营商分析业务开发、实时数据同步系统、Canal数据采集平台

市场价值 : 目前Flink在大型互联网公司使用的非常的广泛,在传统行业Flink目前也是处在一个爆发的阶段。

阶段十 : 大数据新技术实战详解

Druid

Druid应用场景、集群搭建、数据加载、重要概念、架构及原理、数据查询、元数据、实时应用案例

市场价值 : Druid目前人才需求量在不断的增加

阶段十一 : 机器学习( 选修 )

机器学习概念入门

1.基本概念:属性、属性的度量、属性类型、数据集类型、数据集的特性、训练集、测试集、特征值、监督学习、非监督学习、半监督学习等概念
2.数据的预处理:聚集、抽样、维度规约、特征子集选择、特征创建、离散化和二元化、变量变换
3.模型的评估:模型的过分拟合(过拟合),欠拟合,评估分类器的性能(交叉验证和自助法),模型评估方法、损失函数和风险函数、参数优化等,模型复杂度(奥卡姆剃刀)4.机器学习处理的一般流程分析

机器学习数学基础

初等数学基础、函数求导以及链式求导法则、方向导数、梯度、泰勒级数、 拉格朗日乘子法、线性代数与矩阵、特征值与特征向量、概率分析、 极大似然估计、梯度下降法代码实践、牛顿法代码实战、 矩阵分解实战(SVD,PCA,QR)

机器学习语言基础之Python语言

基础数据类型、list/tuple/dict/set、列表推导式、生成器推导式、 lambda函数、控制语句、文件读写、异常处理分析、面向对象编程、 GUI编程、Python基础项目实践

Python数据分析库实战

Numpy矩阵运算库基础及实战、Scipy数值运算库基础及实战、 Matplotlib绘图库基础及实战、Seaborn绘图库基础及实战、 Pandas数据分析库基础及实战

Spark机器学习库实战

SparkML和SparkMLLIB区别、Spark机器学习基础、Pipeline管道、 特征抽取(TF-IDF、Word2Vec、CountVectorizer)、特征转换(Tokenizer、 PCA、N-gram、DCT、one-hot、MinMaxScaler、Normalizer、SqlTransformer、VectorAssembler)、特征选择(VectorSlicer、RFormula、 ChiSqSelector)

机器学习算法之用户标签预测项目实战

用户画像标签预测实战、KNN、KMeans、决策树算法模型(ID3、C4.5、 Cart树)、集成学习算法(Bagging、随机森林、Adaboost算法、GBDT算法、 XGBOOST算法、LightGBM算法模型)、人才流失模型项目实战

机器学习算法之推荐系统实战

基于记忆的CF实战(Surprise库实战)、基于模型的CF实战(SparkALS实战)、 基于Native-Bayes分类算法实战、基于内容推荐(jieba分词、提取词向量、 文本分类、特征聚类)、关联挖掘算法实战(基于Spark的FP-Growth算法实战)、推荐项目实战

机器学习算法之CTR点击率预估实战

特征工程实战、CTR点击率预估应用场景分析、 逻辑斯特回归算法理论基础推导及项目实战、推荐系统指标分析、 推荐系统架构分析、基于Wideanddeep模型理论及实战(学会读学术Paper)

机器学习算法之深度学习基础及图片分类实战

神经网络和深度学习基础、MP神经元模型、感知机模型、BPNN模型实战、 CNN模型实战图像识别、Tensorflow基础、电影评论文本分析、 RNN文本情感分析实战

市场价值 : 可从事机器学习、数据挖掘等相关工作,包括推荐算法工程师、数据挖掘工程师、机器学习工程师,填补人工智能领域人才急剧增长缺口。

阶段十二 : 云计算( 选修 )

虚拟化

hypervisor管理类工具、QEMU、KVM、QEMU-KVM、libvirt、虚拟化技术概述,Xen、VMware、KVM虚拟化对比与实践

公有云(阿里云)

公有云概述、阿里云应用实战

私有云运维(OpenStack)

Openstack概述,OpenStack组件功能介绍,OpenStack安装与配置,OpenStack私有云运维实战;

容器Docker+监控

Docker概述,Docker部署,Docker容器,Docker镜像仓库该学科热门课程

Kubernetes概述、Kubernetes安装与部署、Docker+Kubernetes集群实战

市场价值 : 熟练掌握和学习后,可满足Linux云计算架构工程师的高级需求。

企业级360°全方位用户画像

1、标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。
2、标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。
3、标签标签是构建用户画像的基础,会产生两类用户画像,即个人用户画像和群体画像。个人画像,也叫360度用户视图,用于用户精准互动和一对一服务,销售和运营等操作实务指导为主。群体画像是群体行为分析,群体行为洞察有利于做趋势分析、产品规划、营销决策等层面的工作。

千亿级数据仓库

数据仓库(Data Warehouse)简称DW或DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集。
数据仓库为企业所有级别的决策制定过程,提供所有类型数据支撑的战略集合,主要是用于数据挖掘和数据分析,以建立数据沙盘为基础,为消灭消息孤岛和支持决策为目的而创建的。数据仓库的应用 1.数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶。 2.数据化运营、精准运营。 3.广告精准、智能投放。

Flink电商指标分析项目

基于电商公司电商系统,使用Flink分析电商网站的各种用户行为(访问行为、购物行为、点击行为等),统计出PV、UV等数据,深入掌握Flink DataStream的核心理论知识。

Flink DMP(数据管理系统)项目

DMP 全称数据管理系统, 为广告系统提供数据服务, 项目涉及标签处理, 用户识别, 图计算等技术点, 能够有效提升大数据开发能力。

网站流量日志分析项目

网站流量日志数据分析是一个纯粹的数据分析项目,主要分为:数据采集、数据预处理、数据入库、数据分析、数据展现5大步骤。

Openstack核心服务

OpenStack是一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体工作。
OpenStack支持几乎所有类型的云环境,项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。