在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
当你面试的时候突然被问到:flume 与 kafka 的整合。你会怎么回答?其实面试官提问的时候主要是想考察你对storm的理解,下面小编带大家一起分析这个问题的解答方式!

实现 flume 监控某个目录下面的所有文件,然后将文件收集发送到 kafka 消息系统中
第一步:flume 下载地址http://archive.apache.org/dist/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz 第二步:上传解压 flume
第三步:配置 flume.conf
为我们的 source channelsink 起名
a1.sources = r1 a1.channels = c1 a1.sinks = k1
指定我们的 source 收集到的数据发送到哪个管道
a1.sources.r1.channels = c1
指定我们的 source 数据收集策略a1.sources.r1.type = spooldir a1.sources.r1.spoolDir = /export/servers/flumedata a1.sources.r1.deletePolicy = never
a1.sources.r1.fileSuffix = .COMPLETED a1.sources.r1.ignorePattern = ^(.)*\\.tmp$ a1.sources.r1.inputCharset = GBK
指定我们的 channel 为 memory,即表示所有的数据都装进 memory当中a1.channels.c1.type = memory
指定我们的 sink 为 kafkasink,并指定我们的 sink 从哪个 channel当中读取数据a1.sinks.k1.channel = c1
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink a1.sinks.k1.kafka.topic = test
a1.sinks.k1.kafka.bootstrap.servers = node01: 9092, node02: 9092, node03: 9092
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1
启动 flume
bin/flume-ng agent --conf conf --conf-file conf/flume.conf --name a1
-Dflume.root.logger=INFO, console
把文件放到 flumeData 文件夹下,刷新,文件会自动变为.COMPLETED 文件
以上就是关于flume 与 kafka 的整合的全部知识点了,大家都了解了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据Hbase面试宝典(上)
经历了水深火热的大数据学习,终于拨开云雾见天明了,同学们离成功就差了一步,那就是拿到大数据工程师的Offer。本文详细为同学们整理了一份大数据Hbase面试宝典。
8656
2019-07-03 19:05:17
大数据Hbase面试宝典(中)
应广大同学的需求,本文继续整理了大数据HBase面试问题,希望大家阅读本篇文章以后有所收获,能够对大数据技术的理解更加深入和全面。
9596
2019-07-04 13:58:56
大数据面试:数据仓库工具hive面试题集锦
进入DATE时代,大数据技术成为互联网发展的核心要素之一。与此同时大数据开发工程师的薪资也成为行业内高薪的代表。想从事大数据开发需要掌握多种核心技术:Hadoop、Hive、Storm、Spark、Scala等等。而且这些技术知识点已经成为大数据工程师进入职场时面试中必备的考点。这里主要和大家分享一下数据仓库工具hive相关的面试题!
16910
2019-07-05 17:30:53
大数据面试题 Hive数仓开发的基本流程
数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库的设计大体上可以分为以下几个步骤:概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护。下面我们来看看Hive数仓开发的基本流程。
11657
2019-07-15 16:07:11
大数据面试题 Spark运行架构
Spark作为一种分布式的计算框架,类似于大数据开发中Hadoop生态圈的MapReduce,计算思想和MR非常相似,两者都是分而治之的思想,但使用率要比MR高很多。本文整理了关于Spark运行架构的大数据面试题,内容包括Spark运行的基本流程、架构特点、优势。
7079
2019-09-05 15:19:35
