零基础7天精通kettle8.2章节-大数据优质课程-博学谷

课程有效期教学服务期

立即报名

零基础7天精通kettle8.2

ETL工程师，在数据仓库类职位中占有很大比例，而且薪水都不差。IT人一下子转型数据分析师可能跳跃度比较大难度高，先转型数据仓库/ETL工程师再择机往更高处走是合理选择之一。在ETL软件中，使用最多的是开源的Kettle，完全免费，功能和性能不弱于datastage这类商业ETL软件，使用Kettle和其它开源数据平台软件，例如Mysql集群，Hadoop集群等组合在一起，是性价比极高的架构选择。

第一章 kettle入门教程

1-1 kettle入门

01 kettle简介
02 kettle下载
03 kettle部署
04 kettle简介
05 kettle快速体验
06 执行结果
07 kettle核心概念

1-2 kettle输入控件

01 CSV文件输入
02 文本文件输入
03 Excel输入
04 多文件合并
05 get data from xml
06 json input
07 生产记录
08 表输入

1-3 kettle输出控件

01 Excel输出
02 文本文件输出
03 SQL文件输出
04 表输出
05 更新
06 插入更新
07 删除

1-4 kettle转换控件

01 concat fields
02 值映射
03 增加常量
04 增加序列
05 字段选择
06 计算器
07 字符串剪切、替换、操作
08 去除重复记录、排序记录
09 唯一行（哈希值）
10 拆分字段
11 列拆分为多行
12 列转行
13 行转列
14 行扁平化

1-5 kettle应用控件

01 替换NULL值
02 写日志

1-6 kettle流程控件

01 switch case
02 过滤记录
03 空操作
04 中止

1-7 kettle查询控件

01 Http client
02 数据库查询
03 数据库连接
04 流查询

1-8 kettle连接控件

01 合并记录
02 记录关联（笛卡尔积）
03 记录集关联

1-9 kettle统计控件

01 分组

1-10 kettle映射控件

01 映射

1-11 kettle脚本控件

01 javascript 代码
02 java代码
03 执行SQL脚本

1-12 kettle作业和参数

01 作业
02 全局参数
03 常量传递
04 转换命名参数
05 设置变量、获取变量
06 作业中设置变量
07 发送邮件

第二章 kettle 8.2 ETL项目实战教程

2-1 sakila项目简介

01 sakila业务简介
02 sakila数据库的表和总体设计规范
03 sakila数据库表之间的关系和字段
04 创建sakila数据库和插入数据
05 维度建模的基本概念
06 维度建模的三种模式和命名规范
07 管理维度表各种键和缓慢变化维的处理
09 sakila数据仓库模型简介
10 创建sakila_dwh数据仓库的库和表

2-2 加载日期维度

01 dim_date表结构
02 生成十年记录和增加日期序列
03 生成日期date
04 生成短、中、长、全日期
05 生成天在年和月的第几天、星期名称和缩写、一年的第几周和一月的第几周
06 生成月份、月的名称、月的缩写、两位和四位的年
07 生成季度和季度名称
08 生成是否周的第一天和周的最后一天
09 是否为月的第一天和最后一天、年季度、年月份、年月缩写、日期代理键
10 加载数据到日期维度表

2-3 加载时间维度

01 时间维度表结构
02 生成时数据
03 生成分秒的数据、进行时分秒的笛卡儿积关联输出
04 生成时间属性、加载时间维度表数据

2-4 加载员工维度

01 员工维度表结构
02 获取员工维度表上次更新的时间
03 从员工表中加载最新数据、字段选择、值映射
04 加载SCD2的员工维度表数据

2-5 加载用户维度

01 用户维度表结构
02 获取上次更新的时间、从customer表中加载最新的数据
03 构建映射、查询Address、City、Country表
04 判断是否有第二地址、地址连接、字段选择
05 字段选择、值映射、加载最新用户维度数据

2-6 加载商店维度

01 商店维度表结构
02 加载商店维度数据

2-7 加载演员维度

01 演员维度表结构
02 加载最新的演员维度数据

2-8 加载电影维度

01 电影维度表结构
02 获取上次更新时间和最新表数据
03 查询语言和评级字段映射
04 将special_features列拆分为多行、添加常量Yes和No、将special_feature列转行
05 将special_feature的Null进行替换
06 获取电影分类的id和电影分类的名称
07 增加Yes常量、将category进行列转行
08 将category的null替换为No
09 加载处理好的数据到电影维度表
10 计算演员的权重因子、更新dim_film_actor_bridge维度表

2-9 加载租赁事实

01 租赁事实表结构
02 加载租聘事实表数据、字段选择
03 处理租聘周期
04 获取film_key、customer_key、staff_key、store_key
05 添加常量count_rentals、加载事实表数据

2-10 加载作业

01 构建load_rentals作业

第三章 kettle 8.2 大数据整合

3-1 开发环境搭建

01 安装环境简介
02-安装node-1虚拟机系统
03 使用SecureCRT连接操作系统
04 安装CDH安装环境所需依赖包
05 卸载Open jdk
06 关闭防火墙和安全防护
07 安装lrzsz
08 安装jdk
09 安装和配置并启动NTP服务
10 修改hosts文件
11 克隆出虚拟机node-2
12 克隆虚拟机node-3
13 修改node-1的内存信息、使用SecureCRT连接node-2和node-3
14 配置免密登录
15 mysql安装
16 mysql允许远程访问
17 创建hive和amon数据库
18 在node-1上安装Cloudera Manager 01
19 在node-1上安装Cloudera Manager 02
20 cm server 和 agent的启动
21 CDH的安装

3-2 kettle整合Hadoop

01 Hadoop环境准备
02 kettle配置Hadoop的环境
03 Hadoop file input组件
04 Hadoop file output

3-3 kettle整合hive

01 Hive数据的初始化
02 kettle配置Hive的环境
03 从hive中读取数据
04 把数据写入到hive
05 通过Hadoop copy files作业组件把数据加载到hive数据库中
06 执行Hive的HiveSQL语句

3-4 kettle整合hbase

01 HBase初始化
02 HBase Input控件
03 HBase Output控件