在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
分析Nginx访问日志需要学什么?需要掌握Spark SQL核心知识,分析Nginx访问日志掌握SparkSQL数据分析能力,SparkSQL调优方式及其核心思想。通过思维导图的方式对学习课程所涉及的知识。

1、Spark SQL介绍
Spark SQL在Spark生态圈的地位和作用,让大家对Spark SQL 的总体知识框架有个大概的轮廓。
2、认识Spark SQL
Spark SQL运行原理,DataFrame、DataSet和RDD的相互转化和使用场景,并讲解Parquet的使用。
2.1 Spark SQL和Hive
2.2 Spark SQL运行原理
2.3 DataFrame、DataSet和RDD的联系
2.4 Parquet列式存储
3、 DataFrame/DataSet常用操作
DataFrame的过滤,分组,排序操作和列值的增删改,以及对Join的优化。
3.1 一般操作:查找和过滤
3.2 聚合操作:groupBy和agg
3.3 单表操作:列的增删改与空值处理
3.4 多表操作:join
4、自定义函数和开窗函数
讲解自定义函数的使用,以及开窗函数在分组求TopN中的应用。
4.1 自定义函数:UDF
4.2 自定义聚合函数:UDAF
4.3 开窗函数:row_number()
5、Nginx访问日志分析完整实战
使用Spark SQL分析Nginx访问日志的项目。包括了数据清洗,存储,监控和优化。
5.1 项目场景介绍及分析
5.2 第一次数据清洗:格式化原始日志数据
5.3 第二次数据清洗:解析数据并按天以Parquet格式存储
5.4 将分析结果批量写入MySql
5.5 性能监控及优化
日志服务查询分析能力是完整SQL92,支持各种数理统计与计算。目前,日志服务支持保存查询语句为快速查询,对查询设置触发周期(间隔),并对执行结果设定判断条件并且告警。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
数据挖掘、数据分析以及大数据之间的区别有哪些?
进入大数据时代,和数据相关的名词都被人们津津乐道。那数据挖掘、数据分析以及大数据之间有哪些区别呢?数据挖掘是发现信息以及收集数据的过程;数据分析则是将现有数据进行归纳以及分析得出相应结论的过程。而大数据则更加关注数据本身,重要表现就是数据量大,数据的多样性等等。
14290
2019-06-20 18:11:53
数据分析师的薪资水平如何?就业前景好吗?
互联网的快速发展为市场带来的巨大的潜力,数据时代的降临也为市场提供了更多的就业岗位,很多人都在关注数据分析师相关的岗位情况,现在数据分析师的薪资水平如何?就业前景好吗?
8537
2019-08-23 18:36:20
大数据如何构建用户画像?
进入大数据时代,我们常常在谈论的一个概念就是用户画像。在互联网领域利用用户画像,可以达到精准营销的商业目的,因此这也是为什么构建用户画像在这个流量至上的年代如此重要的原因。任何企业公司的产品要想做好精细化运营,都需要先构建该产品和服务的用户画像。下面我们一起看看用户画像的概念和构建方法。
5976
2020-03-31 11:12:22
大数据的定义和概念是什么?一文带你认识大数据
如今,大数据无处不在,它被广泛地应用到各个领域中。似乎我们对大数据已经并不陌生了,但是关于大数据的定义和概念,相信没几个人能够说清楚。那么,当我们在谈大数据的时候到底在谈什么呢?本文就来用一篇文章带大家彻底认识大数据,包括大数据的定义、特点、应用场景以及和云计算的关系。下面就一起来看看吧!
24577
2020-05-14 16:25:29
常见数据分析误区有哪些?你犯了吗?
对于数据而言大部分人会认为数据是客观存真实可信的,事实如此吗?影响数据分析水平的因素,一方面得益于经验积累,另一方面规避了错误方法和思维。
5392
2021-04-08 17:18:21
