在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据Kafka进阶面试题汇总

发布时间：2019-08-22 19:26:09 浏览 7711 来源：博学谷资讯作者：照照

Kafka是一个分布式、支持分区的、多副本的，基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景。在大数据面试中，Kafka也是一个必考点。因此小编汇总了历年来比较经典常见的大数据Kafka进阶面试题。

大数据Kafka进阶面试题

一、Kafka的介绍

1、什么是Kafka？

Apache Kafka 是一个开源消息系统，由 Scala 写成。是由 Apache 软件基金会开发的一个开源消息系统项目。Kafka 最初是由 LinkedIn 开发，并于 2011 年初开源。2012 年 10 月从 Apache Incubator 毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。

Kafka 是一个分布式消息队列：生产者、消费者的功能。它提供了类似于JMS 的特性，但是在设计实现上完全不同，此外它并不是 JMS 规范的实现。Kafka 对消息保存时根据 Topic 进行归类，发送消息者称为 Producer，消息接受者称为 Consumer，此外 kafka 集群有多个 kafka 实例组成，每个实例(server) 成为 broker。无论是 kafka 集群，还是 producer 和 consumer 都依赖于 zookeeper 集群保存一些 meta 信息，来保证系统可用性。

2、Kafka与传统消息系统的区别

（1）在架构模型方面

RabbitMQ 遵循 AMQP 协议，RabbitMQ 的 broker 由 Exchange，Binding，queue组成，其中 exchange 和 binding 组成了消息的路由键；客户端 Producer 通过连接channel 和server 进行通信，Consumer 从queue 获取消息进行消费（长连接，queue有消息会推送到 consumer 端，consumer 循环从输入流读取数据）。rabbitMQ 以broker 为中心；有消息的确认机制。kafka 遵从一般的 MQ 结构，producer，broker，consumer，以 consumer 为中心，消息的消费信息保存的客户端 consumer 上，consumer 根据消费的点，从broker 上批量 pull 数据；无消息确认机制。

（2）在吞吐量

Kafka具有高的吞吐量，内部采用消息的批量处理，zero-copy 机制，数据的存储和获取是本地磁盘顺序批量操作，具有 O(1)的复杂度，消息处理的效率很高。rabbitMQ 在吞吐量方面稍逊于 kafka，他们的出发点不一样，rabbitMQ 支持对消息的可靠的传递，支持事务，不支持批量的操作；基于存储的可靠性的要求存储可以采用内存或者硬盘。

（3）在可用性方面

rabbitMQ 支持 miror 的 queue，主 queue 失效，miror queue 接管。kafka 的 broker 支持主备模式。

（4）在集群负载均衡方面

Kafka采用 zookeeper 对集群中的 broker、consumer 进行管理，可以注册 topic 到 zookeeper 上；通过 zookeeper 的协调机制，producer 保存对应 topic 的 broker 信息，可以随机或者轮询发送到 broker 上；并且 producer 可以基于语义指定分片，消息发送到 broker 的某分片上。

3、Kafka与 activeMQ 的区别。

Topic：主题，即一个标识，类似于 map 里面的 key，通过它来给消息分类，消息根据 Topic 进行归类。

共同点：都有生产者和消费者两大组件，生产者发送消息给各自的服务器，(发送消息是就会定义一个 topic)并进行存储。

不同点：activeMQ：消费者会提前订阅自己需要的 topic，当该 topic 中有了消息以后，activeMQ 服务器会发送消息给消费者，然后消费者再去服务器中拿到自己想要的数据。

Kafka：消费者(指定 topic)会定时去 kafka 服务器中拿该 topic 中的数据。

4、Kafka的组件介绍

producer：生产者，主要用于我们的消息的生产，通过 producer 将我们的消息 push 到Kafka集群当中。

topic：某一类消息的高度抽象，可以理解成某一类消息的集合，一类消息，每个topic 将被分成多个 partition(区)，在集群的配置文件中配置。

broker：Kafka的服务器，一个 broker 就代表一个服务器的节点partition：分区的概念，一个 topic 当中的消息，可以拆分成多个 partition 分区，存放在多个不同的服务器上，实现数据存放的横向扩展。

repliaction：副本，所有的 partition 都可以指定存放几个副本，做到数据的冗余，保证数据的安全。

segment：每个 partiiton 由多个 segment 组成，segment 又包含了两部分，一个.log 文件，一个是.index 文件。

.log：存放我们的日志文件，所有的数据，最后都以日志文件的形式存放到了Kafka集群当中。

.index ：索引文件，所有的.log 文件的索引都存放在了这里，便于我们查找某一条日志文件的快速。

consumer：消费者，消费我们 kafka 集群当中的消息，问题：如何知道消费者消费到了哪一条消息来了？可以通过记录的方式，记下来每次我们消费的位置。

第一种记录方式：Kafka的本地文件系统，比较慢，对应 kafka 的一个慢速消费的方式。

第二种记录方式：zookeeper 当中的节点数据记录，比较快，对应 kafka 的一个快速消费的方式。

offset：偏移量，就是记录的我们消费到了哪一条数据来了。发布者发到某个 topic 的消息会被均匀的分布到多个 part 上，broker 收到发布消息往对应 part 的最后一个 segment 上添加该消息。

以上就是大数据Kafka进阶面试题汇总。还没有看够的同学可以报名博学谷的大数据就业班，有线上的高级讲师和就业老师，专门为大家培训大数据面试的相关内容，帮助大家顺利拿到offer。

大数据开发云计算

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：学大数据技术必须了解的大数据经典应用案例下一篇：零基础大数据培训课程怎么样？学什么？

相关推荐 更多

spark中的RDD是什么？RDD有哪些特性？

随着移动互联网的发展，云计算大数据开发求职者越来越多。今天小编为大家整理了关于spark的经典面试题：spark中的RDD是什么？RDD有哪些特性？并且编写了较为详细的答案说明，希望能帮助大家解答这方面的疑惑。

13079

2019-07-02 14:04:50

大数据开发
云计算大数据在线培训班学费多少钱？贵不贵？

云计算大数据在线培训班学费多少钱？贵不贵？随着大数据技术的火爆，越来越多的人转行做大数据或者开始学习大数据。近几年来，IT培训机构也随着大数据的风潮开得如火如荼。市面上的大数据课程大都在一万到两万之间，根据授课方式不同，培训费用差别越大。一般来说，在线课程比线下课程性价比更高，但是课程质量不会有影响。

10422

2019-12-16 17:28:55

大数据培训培训多少钱IT在线培训班
数据分析师好找工作吗？薪资待遇怎么样？

数据分析师好找工作吗？回答无疑是肯定的。数据分析师一职在当下所谓的就业寒潮中，可以说是一路激流勇进。那么数据分析师的薪资待遇究竟怎么样呢？根据各大招聘网站整理的数据，我们可以看见，各知名互联网大厂都几乎开出了30K-70K的年薪，来吸引数据分析人才，但是岗位却仍然供不应求。

10033

2019-12-24 14:32:35

大数据开发就业方向就业前景
数据仓库与数据库的区别是什么？

相信大数据学习者对于数据仓库与数据库并不陌生，两者都是通过数据库软件实现存放数据的地方，从这个意义上来看，它们似乎没有多大的差别。但是再深入一点分析，我们会发现无论是从数据量还是作用来讲，两者的区别都是巨大的。为了更清楚的分辨数据仓库与数据库，下面我们具体来聊聊数据仓库与数据库的区别。

17291

2020-06-05 11:06:23

大数据技术大数据开发应用场景
转大数据技术开发要学哪些知识点？高效的大数据学习路线推荐

转大数据技术开发要学哪些知识点？高效的大数据学习路线推荐，以往的数据开发需要一定的Java基础和工作经验，门槛高，入门难。如果零基础入门数据开发行业的小伙伴从Python语言入手。Python语言简单易懂，适合零基础入门，在编程语言排名上升最快，能完成数据挖掘。

5343

2022-04-15 11:20:22

大数据开发大数据入门