在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
当你面试的时候突然被问到:flume 与 kafka 的整合。你会怎么回答?其实面试官提问的时候主要是想考察你对storm的理解,下面小编带大家一起分析这个问题的解答方式!
实现 flume 监控某个目录下面的所有文件,然后将文件收集发送到 kafka 消息系统中
第一步:flume 下载地址http://archive.apache.org/dist/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz 第二步:上传解压 flume
第三步:配置 flume.conf
为我们的 source channelsink 起名
a1.sources = r1 a1.channels = c1 a1.sinks = k1
指定我们的 source 收集到的数据发送到哪个管道
a1.sources.r1.channels = c1
指定我们的 source 数据收集策略a1.sources.r1.type = spooldir a1.sources.r1.spoolDir = /export/servers/flumedata a1.sources.r1.deletePolicy = never
a1.sources.r1.fileSuffix = .COMPLETED a1.sources.r1.ignorePattern = ^(.)*\\.tmp$ a1.sources.r1.inputCharset = GBK
指定我们的 channel 为 memory,即表示所有的数据都装进 memory当中a1.channels.c1.type = memory
指定我们的 sink 为 kafkasink,并指定我们的 sink 从哪个 channel当中读取数据a1.sinks.k1.channel = c1
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink a1.sinks.k1.kafka.topic = test
a1.sinks.k1.kafka.bootstrap.servers = node01: 9092, node02: 9092, node03: 9092
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1
启动 flume
bin/flume-ng agent --conf conf --conf-file conf/flume.conf --name a1
-Dflume.root.logger=INFO, console
把文件放到 flumeData 文件夹下,刷新,文件会自动变为.COMPLETED 文件
以上就是关于flume 与 kafka 的整合的全部知识点了,大家都了解了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据Hadoop中HDFS 存储的机制?
HDFS即Hadoop分布式文件系统。它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。那大数据中HDFS 存储的机制怎样的呢?
11676
2019-08-14 10:19:54
大数据面试题 Hadoop的联邦机制
大数据学习需要掌握很多技术知识点,包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。今天主要和大家分享一下Hadoop的联邦机制。
10276
2019-07-18 23:40:42
大数据面试题 Spark知识点汇总
Spark是一个实现快速通用的集群计算平台,它是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。在大数据库架构中常常需要使用Spark,Spark的知识点一直也是大数据面试题的重点,本文整理了Spark知识点汇总,现在就和大家一起梳理下吧!
7772
2019-07-25 15:33:51
大数据kafka常见面试题整理附答案
kafka一直都是大数据面试题的必考点。因此,小编整理了有关kafka知识点的大数据面试题,主要针对kafka的定义、与传统消息系统的区别、kafka集群的安装与搭建三大问题,并附上了参考答案。需要梳理kafka知识点的同学可以看看。
10532
2019-08-06 16:23:49
大数据岗位Spark面试题整理附答案
众所周知,Spark作为一个集群计算平台和内存计算系统,它是专门为速度和通用目标设计的。从事大数据岗位的工作者,像是ETL工程师、Spark工程师、Hbase工程师、用户画像系统工程师都需要熟练掌握Spark相关知识点,因此Spark也是常常会出现的必考面试题。下面我整理了一些Spark面试题,并附上了答案,一起来看看做一做吧!
8469
2020-04-01 17:52:24