博学谷 > 优质课 > 大数据 Hadoop 离线分布式系统

大数据 Hadoop 离线分布式系统

大数据 Hadoop 离线分布式系统

本课程通过Hadoop集群部署、HDFS、Hive数据仓库等内容以及Impala、Hue等相关新技术的学习,使学习者达到具备企业数据部中高级应用开发、初级架构师、Hive工程师和数据仓库工程师的能力。

主讲:大数据高级讲师 | 课程时长:52课时 | 学习人数:112人 | 难度: 进阶

¥3980.00 ¥6980.00

立即报名

第 一 章:大数据 Hadoop 离线分布式系统

1-1 hadoop源生集群搭建

1-1-1 1、hadoop第二天上次课程内容回顾
1-1-2 2、hadoop的介绍以及发展历史和历史介绍等
1-1-3 3、hadoop的三大发行公司以及hadoop的架构模型
1-1-4 4、standAlone的环境搭建之配置文件修改
1-1-5 5、hadoop集群的standAlone环境的启动以及管理界面查看
1-1-6 6、hadoop的完全分布式环境搭建

1-2 CDH版本集群搭建

1-2-1 7、CDH版本的hadoop的重新编译
1-2-2 8、cdh版本的zk环境搭建
1-2-3 9、cdh版本的hadoop重新编译之后伪分布式环境搭建

1-3 hdfs入门

1-3-1 10、hadoop的hdfs以及MapReduce的体验
1-3-2 11、hdfs的基本特性介绍
1-3-3 12、hdfs的基本操作命令
1-3-4 13、hdfs的高级命令使用
1-3-5 14、hdfs的基准测试
1-3-6 15、hadoop第二天今日课程总结

1-4 hdfs深入

1-4-1 1、hadoop第三天上次课程内容回顾
1-4-2 2、今日课程内容大纲以及hdfs的基本实现
1-4-3 3、hdfs的架构以及副本机制和block块存储
1-4-4 4、hdfs当中的元数据管理以及元数据的查看
1-4-5 5、hdfs当中的fsimage与edist的合并过程
1-4-6 6、hdfs文件的写入过程
1-4-7 7、hdfs的文件的读取过程
1-4-8 8、hdfs的javaAPI开发以及如何解决winutils的问题
1-4-9 9、获取分布式文件系统客户端的几种方式
1-4-10 10、hdfs的javaAPI操作

1-5 mapreduce入门

1-5-1 11、MapReduce程序的入门
1-5-2 12、mapreduce程序的完成以及打包运行
1-5-3 13、mapreduce程序的本地模式运行
1-5-4 14、hadoop第三天今日课程总结

1-6 mapreduce深入学习

1-6-1 1、hadoop第四天上次课程内容回顾
1-6-2 2、MapReduce的分区
1-6-3 3、分区案例的补充完成运行实现
1-6-4 4、MapReduce的序列化以及自定义排序
1-6-5 5、mapreduce的排序以及序列化代码完成实现
1-6-6 6、MapReduce当中的计数器
1-6-7 7、mapreduce当中的规约过程(combiner)
1-6-8 8、手机流量汇总求和
1-6-9 9、手机上行流量排序实现
1-6-10 10、手机号码进行分区
1-6-11 11、maptask的运行机制
1-6-12 12、reducetask的运行机制
1-6-13 13、mapReduce的整个运行的过程,好好反复看视频
1-6-14 14、mapreduce数据的压缩-使用snappy来进行数据的压缩
1-6-15 15、reduce端的join算法的实现
1-6-16 16、map端join算法的代码实现1
1-6-17 17、map端的join算法的实现补充2
1-6-18 18、hadoop第四天今日课程总结

1-7 mapreduce高级

1-7-1 1、hadoop第五天上次课程内容回顾
1-7-2 2、共同好友求取步骤一
1-7-3 3、求取共同好友步骤二
1-7-4 4、倒排索引的建立
1-7-5 5、通过自定义inputformat实现小文件合并成为sequenceFile格式1
1-7-6 6、自定义inputformat实现小文件的合并2
1-7-7 7、自定义outputformat实现输出到不同的文件夹下面去
1-7-8 8、自定义分区实现分组求取topN
1-7-9 9、自定义分组求取top1
1-7-10 10、思考:如何分组求取topN的值
1-7-11 11、实现分组求取topN
1-7-12 12、mapreduce相关的参数调整

1-8 yarn

1-8-1 13、yarn资源调度的介绍
1-8-2 14、yarn集群当中的三种调度器
1-8-3 15、关于yarn当中常用的参数设置
1-8-4 16、hadoop第五天今日课程总结

1-9 hive安装

1-9-1 1、hadoop第六天上次课程内容回顾
1-9-2 2、数据仓库的基本概念
1-9-3 3、hive的基本介绍
1-9-4 4、hive的基本架构以及与hadoop的关系以及RDBMS的对比等
1-9-5 5、hive的安装之(使用mysql作为元数据信息存储)

1-10 hive基本操作

1-10-1 6、hive的基本操作
1-10-2 7、创建数据库的语法
1-10-3 8、hive当中创建内部表的语法
1-10-4 9、hive当中创建外部表的语法及外部表的操作
1-10-5 10、外部分区表综合练习
1-10-6 11、hive当中的分桶表以及修改表删除表数据加载数据导出等
1-10-7 12、hive当中的hql语法

1-11 hive高级用法

1-11-1 13、hive的函数
1-11-2 14、hive的数据压缩
1-11-3 15、hive的数存储格式介绍
1-11-4 16、hive当中常用的几种数据存储格式
1-11-5 17、存储方式与压缩格式相结合
1-11-6 18、hadoop第六天今日课程总结

1-12 hive调优

1-12-1 1、hive的调优之fetch的抓取以及表的优化
1-12-2 2、hive的调优
1-12-3 3、hive的课程总结

1-13 flume

1-13-1 4、离线项目处理的整个架构图
1-13-2 5、flume的基本介绍
1-13-3 6、flume的入门测试案例
1-13-4 7、flume监控文件夹,实现数据收集到hdfs上面去
1-13-5 8、flume采集某个文件内容到hdfs上面去
1-13-6 9、flume的多个agent串联实现node02采集数据发送给node03,node03保存数据到hdfs上面去
1-13-7 10、flume的更多组件介绍
1-13-8 11、flume的failover机制实现高可用
1-13-9 12、flume的load_balance实现机制
1-13-10 13、更多flume案例一,通过拦截器实现数据类型的区分
1-13-11 14、flume的拦截器实现不同类型的数据区分
1-13-12 15、flume的案例二,通过自定义拦截器实现数据的脱敏

1-14 azkaban调度

1-14-1 16、azkaban的介绍以及azkaban的soloserver的安装使用
1-14-2 17、azkaban的两个服务模式的安装
1-14-3 1、azkaban的任务调度使用

1-15 sqoop

1-15-1 2、sqoop的基本简介自己sqoop的安装
1-15-2 3、sqoop的入门测试使用
1-15-3 4、sqoop的数据导入之导入数据到hdfs以及导入数据到hive表当中来
1-15-4 5、实现数据的控制导入
1-15-5 6、sqoop的数据增量导入以及sqoop的数据导出
1-15-6 7、通过java代码远程连接linux执行linux的shell命令

1-16 网站点击流项目(上)

1-16-1 1、网站流量分析模型
1-16-2 2、网站流量分析的常见指标
1-16-3 3、离线日志网站处理的架构流程(流程背下来)
1-16-4 4、网站的数据采集,使用flume的taildir实现多个文件的监控采集
1-16-5 5、数据的预处理之清洗一些不必要的数据
1-16-6 6、数据预处理之pageView表模型数据
1-16-7 7、数据的预处理之数据的visit表模型
1-16-8 8、hadoop第八天课程总结

1-17 网站点击流项目(下)

1-17-1 1、数据仓库建模的基本概念
1-17-2 2、明细宽表的生成
1-17-3 3、流量统计分析,分组求topN
1-17-4 4、受访分析
1-17-5 5、访客分析
1-17-6 6、访客visit分析
1-17-7 7、hive的级联求和
1-17-8 8、结果的导出以及工作流的调度工作
1-17-9 9、三大框架整合搭建
1-17-10 10、实现第一个图标的显示
1-17-11 11、实现折线图的图表展示

1-18 IMPALA

1-18-1 1、impala的基本介绍
1-18-2 2、impala的架构介绍
1-18-3 3、impala软件的下载以及linux磁盘的挂载
1-18-4 4、linux磁盘的挂载
1-18-5 5、linxu的磁盘挂载2以及压缩文件的上传并解压
1-18-6 6、yum源制作过程
1-18-7 7、impala的安装以及配置过程
1-18-8 8、impala的shell交互窗口使用
1-18-9 9、impala的外部以及内部shell参数
1-18-10 10、impala的基本查询语法
1-18-11 11、impala当中的数据加载的四种方式
1-18-12 12、通过java代码来执行impala的查询操作

1-19 HUE

1-19-1 13、hue的下载以及安装配置
1-19-2 14、hue与hdfs以及与yarn集群的整合
1-19-3 15、hue与hive的整合
1-19-4 16、hue与impala以及与mysql的整合
1-19-5 17、hadoop第十天今日课程总结

1-20 OOZIE

1-20-1 1、hadoop11天上传课程内容回顾以及今日课程内容大纲
1-20-2 2、oozie介绍以及oozie的安装1
1-20-3 3、oozie的安装步骤2
1-20-4 4、通过oozie执行shell脚本
1-20-5 5、通过oozie执行hive的任务
1-20-6 6、通过oozie执行mapreduce的任务以及oozie执行sqoop的任务的解决思路
1-20-7 7、oozie当中的job任务的串联
1-20-8 8、oozie当中的定时任务的执行
1-20-9 9、oozie与hue的整合以及整合之后执行MR的任务
1-20-10 10、伪分布式环境转换为HA集群环境
1-20-11 11、hadoop的federation联邦机制(了解一下)
1-20-12 12、cm环境搭建的基础环境准备
1-20-13 13、clouderaManager的服务搭建
1-20-14 14、clouderaManager服务的安装3
1-20-15 15、hadoop11天今日课程总结

猜你还感兴趣

暂无推荐课程,自己逛逛吧

提示
该课程已在购物车中了,无需重复加入
去购物车