在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创 Logstash开发采集上亿级别数据

发布时间：2020-09-02 10:22:22 浏览 4395 来源：博学谷作者：吾非鱼

　　Logstash开发采集上亿级别数据，需求属于日志采集的范畴，Logstash本身不支持反序列化功能，需要自定义开发ruby插件来支持，使用MLSQL结合UDF的方式进行流式处理。MLSQL写入hdfs会产生大量的小文件，需要单独开发合并文件的功能，写入es的数据是需要数仓结合其他业务数据进行建模，用离线处理的方式。

　　开发背景：公司业务系统做优化改造，同时为了能够实现全链路监控需收集所有业务系统之间的调用日志；数据情况:每天20亿以上；机器成本:3台kafka集群；2台logstash采集机器；技术:Java,MQ,MLSQL,Logstash。

　　采集流程：

采集流程
　　MLSQL 消费MQ：原始日志产生侧通过protobuf进行序列化推送至mq,然后通过MLSQL进行反序列化并进行简单的etl处理后，再推送至MQ；

　　通过Logstash进行消费MQ：通过logstash消费经过MLSQL处理后的数据，并在这里通过ruby进行再次的加工处理，最后写入es和hdfs（一部分流程推送到es是业务侧使用，而另一部分写入hdfs是提供给数仓使用）

　　数仓建模：通过数仓建模，将最后的指标结果推送至es提供给业务侧使用，主要是借鉴这个需求讲解Logstash在实际场景中的使用以及优化。

　　Logstash开发流程：

　　1、确定日志格式

　　一个日志文件里肯定是不止一种日志格式，也有可能是标准化的格式，这里需要跟日志产生侧进行确认格式。

　　2、调试grok

　　确定好日志格式后，编写grok语法，然后进行调试，本人是通过kibana6自带的grok debug进行调试。结合该需求背景，最后经过logstash采集的时候，其实已经通过MLSQL进行了处理，最后Logstash消费的是格式就是一个json字符串，所以不需要grok语法。

　　3、调试ruby
　　结合该需求，使用ruby进行一些清洗逻辑

调试ruby
　　4、优化

　　优化工作在整个需求开发周期的比例较大，数据量较大资源较少，具体优化思路如下：

　　（1）MLSQL优化
　　这部分的优化工作主要是在反序化这块，剔除一部分无用字段，以及提前过滤一部分数据量，一部分注册UDF的代码：

MLSQL优化
　　（2）Kafka端优化
　　因kafka集群是集团共用,所以kafka端的优化其实只涉及到消费端的优化。这里只调节数据压缩、消费者线程数这两个参数。

　　（3）hdfs优化
　　logstash写入hdfs的部分不用使用自带的webhdfs插件，而是自定义的插件。
　　因自定义插件中涉及到文件锁的问题，会通过比对前后两次文件是否一致来进行文件最后的刷写，所以这里只能通过减少文件的更新频率来减少上下文的切换以及刷写操作

　　（4）ES优化
　　es部分的优化也只是涉及到写优化，比如批量写入、调大线程数、增加refresh间隔、禁止swapping交换内存、禁止refresh和replica操作，调大index buffer等操作。

Java开发数据库

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：零基础报Java培训班学4个月有用吗？学习效果如何？下一篇： Spring AOP应用场景有哪些？Aop工作原理分析

相关推荐 更多

Java课程设计题目有哪些？Java课程设计题目汇总

在学习Java的路上，多多练习项目实践是很有必要的。因此，本文整理了20道Java课程设计题目，希望大家总结、回顾和实践学过的所有面向对象的编程思想以及编程方法。

20759

2019-07-29 11:34:42

Java开发笔试题实战项目
Java性能调优要注意什么？又有哪些方式？

Java性能调优要注意什么？又有哪些方式？一般来说，Java性能调优有着以下几个原则，即充分而不过分使用硬件资源、合理调整JVM和合理使用JDK包。在Java性能调优的过程中，我们要注意调优步骤、性能瓶颈的表象、外部处理系统的性能不足、CPU消耗分析、上下文切换等等。而Java性能调优的方式主要有设计调优、代码调优、JVM调优、数据库调优和操作系统调优。

5023

2020-01-13 09:45:41

Java开发专业技能
MySQL中数据库的设计归纳讲解

谈到MySQL中数据库的设计，相信大家都知道这是实现实际业务的重要一步，因此对于Java学习者来说，深入了解和学习数据库的设计是十分有必要的。本文为大家准备了一份MySQL中数据库的设计归纳讲解，内容包括了多表之间的关系，像是分类、实现以及案例分析，还有数据库设计的范式概念和分类等等。有学习兴趣的朋友现在赶紧接着看下去吧！

4309

2020-02-13 14:53:59

Java基础数据库
Java项目开发实战心得体会

企业开发一个项目都是有一整套标准化的可行性流程，这样才能最大程度节约Java项目开发的时间和成本。然而许多Java学习者在学习过程中无法接触到企业真实的开发流程，导致在面试过程中以及初入职场时碰壁。为了避免这种现象出现，博学谷除了进行理论知识的系统培训，还会进行企业级的大型项目实战演练。下面一起来看看学员在Java项目开发实战中的心得体会吧！

6906

2020-07-13 15:28:12

Java开发实战项目学员感言
Java语言适合零基础入门为什么？

很多人在选择入门IT行业，不知道自己适合学习哪一门编程语言，也不知道哪一门语言的发展前景好。编程语言有很多种，但选择一门编程语言非常值得认真考虑的，选太容易的担心后面学其他的语言会很难，选太难的话又担心自己不会，不少人选择性Java入门，Java语言好在哪儿呢？

4149

2020-07-29 11:11:29

Java开发零基础入门