第一章 kettle入门教程
1-1 kettle入门
  • 01 kettle简介
  • 02 kettle下载
  • 03 kettle部署
  • 04 kettle简介
  • 05 kettle快速体验
  • 06 执行结果
  • 07 kettle核心概念
1-2 kettle输入控件
  • 01 CSV文件输入
  • 02 文本文件输入
  • 03 Excel输入
  • 04 多文件合并
  • 05 get data from xml
  • 06 json input
  • 07 生产记录
  • 08 表输入
1-3 kettle输出控件
  • 01 Excel输出
  • 02 文本文件输出
  • 03 SQL文件输出
  • 04 表输出
  • 05 更新
  • 06 插入更新
  • 07 删除
1-4 kettle转换控件
  • 01 concat fields
  • 02 值映射
  • 03 增加常量
  • 04 增加序列
  • 05 字段选择
  • 06 计算器
  • 07 字符串剪切、替换、操作
  • 08 去除重复记录、排序记录
  • 09 唯一行(哈希值)
  • 10 拆分字段
  • 11 列拆分为多行
  • 12 列转行
  • 13 行转列
  • 14 行扁平化
1-5 kettle应用控件
  • 01 替换NULL值
  • 02 写日志
1-6 kettle流程控件
  • 01 switch case
  • 02 过滤记录
  • 03 空操作
  • 04 中止
1-7 kettle查询控件
  • 01 Http client
  • 02 数据库查询
  • 03 数据库连接
  • 04 流查询
1-8 kettle连接控件
  • 01 合并记录
  • 02 记录关联(笛卡尔积)
  • 03 记录集关联
1-9 kettle统计控件
  • 01 分组
1-10 kettle映射控件
  • 01 映射
1-11 kettle脚本控件
  • 01 javascript 代码
  • 02 java代码
  • 03 执行SQL脚本
1-12 kettle作业和参数
  • 01 作业
  • 02 全局参数
  • 03 常量传递
  • 04 转换命名参数
  • 05 设置变量、获取变量
  • 06 作业中设置变量
  • 07 发送邮件
第二章 kettle 8.2 ETL项目实战教程
2-1 sakila项目简介
  • 01 sakila业务简介
  • 02 sakila数据库的表和总体设计规范
  • 03 sakila数据库表之间的关系和字段
  • 04 创建sakila数据库和插入数据
  • 05 维度建模的基本概念
  • 06 维度建模的三种模式和命名规范
  • 07 管理维度表各种键和缓慢变化维的处理
  • 09 sakila数据仓库模型简介
  • 10 创建sakila_dwh数据仓库的库和表
2-2 加载日期维度
  • 01 dim_date表结构
  • 02 生成十年记录和增加日期序列
  • 03 生成日期date
  • 04 生成短、中、长、全日期
  • 05 生成天在年和月的第几天、星期名称和缩写、一年的第几周和一月的第几周
  • 06 生成月份、月的名称、月的缩写、两位和四位的年
  • 07 生成季度和季度名称
  • 08 生成是否周的第一天和周的最后一天
  • 09 是否为月的第一天和最后一天、年季度、年月份、年月缩写、日期代理键
  • 10 加载数据到日期维度表
2-3 加载时间维度
  • 01 时间维度表结构
  • 02 生成时数据
  • 03 生成分秒的数据、进行时分秒的笛卡儿积关联输出
  • 04 生成时间属性、加载时间维度表数据
2-4 加载员工维度
  • 01 员工维度表结构
  • 02 获取员工维度表上次更新的时间
  • 03 从员工表中加载最新数据、字段选择、值映射
  • 04 加载SCD2的员工维度表数据
2-5 加载用户维度
  • 01 用户维度表结构
  • 02 获取上次更新的时间、从customer表中加载最新的数据
  • 03 构建映射、查询Address、City、Country表
  • 04 判断是否有第二地址、地址连接、字段选择
  • 05 字段选择、值映射、加载最新用户维度数据
2-6 加载商店维度
  • 01 商店维度表结构
  • 02 加载商店维度数据
2-7 加载演员维度
  • 01 演员维度表结构
  • 02 加载最新的演员维度数据
2-8 加载电影维度
  • 01 电影维度表结构
  • 02 获取上次更新时间和最新表数据
  • 03 查询语言和评级字段映射
  • 04 将special_features列拆分为多行、添加常量Yes和No、将special_feature列转行
  • 05 将special_feature的Null进行替换
  • 06 获取电影分类的id和电影分类的名称
  • 07 增加Yes常量、将category进行列转行
  • 08 将category的null替换为No
  • 09 加载处理好的数据到电影维度表
  • 10 计算演员的权重因子、更新dim_film_actor_bridge维度表
2-9 加载租赁事实
  • 01 租赁事实表结构
  • 02 加载租聘事实表数据、字段选择
  • 03 处理租聘周期
  • 04 获取film_key、customer_key、staff_key、store_key
  • 05 添加常量count_rentals、加载事实表数据
2-10 加载作业
  • 01 构建load_rentals作业
第三章 kettle 8.2 大数据整合
3-1 开发环境搭建
  • 01 安装环境简介
  • 02-安装node-1虚拟机系统
  • 03 使用SecureCRT连接操作系统
  • 04 安装CDH安装环境所需依赖包
  • 05 卸载Open jdk
  • 06 关闭防火墙和安全防护
  • 07 安装lrzsz
  • 08 安装jdk
  • 09 安装和配置并启动NTP服务
  • 10 修改hosts文件
  • 11 克隆出虚拟机node-2
  • 12 克隆虚拟机node-3
  • 13 修改node-1的内存信息、使用SecureCRT连接node-2和node-3
  • 14 配置免密登录
  • 15 mysql安装
  • 16 mysql允许远程访问
  • 17 创建hive和amon数据库
  • 18 在node-1上安装Cloudera Manager 01
  • 19 在node-1上安装Cloudera Manager 02
  • 20 cm server 和 agent的启动
  • 21 CDH的安装
3-2 kettle整合Hadoop
  • 01 Hadoop环境准备
  • 02 kettle配置Hadoop的环境
  • 03 Hadoop file input组件
  • 04 Hadoop file output
3-3 kettle整合hive
  • 01 Hive数据的初始化
  • 02 kettle配置Hive的环境
  • 03 从hive中读取数据
  • 04 把数据写入到hive
  • 05 通过Hadoop copy files作业组件把数据加载到hive数据库中
  • 06 执行Hive的HiveSQL语句
3-4 kettle整合hbase
  • 01 HBase初始化
  • 02 HBase Input控件
  • 03 HBase Output控件