原创大数据进阶面试题Storm开源软件

发布时间：2019-08-15 16:41:39 浏览 7197 来源：博学谷资讯作者：照照

在大数据求职者眼中，Storm肯定是一款高效的开源软件，它主要用于解决数据的实时计算和实时的处理等方面的问题。同时Storm也是大数据进阶面试题的重难点，因此小编整理了一些近些年来比较经典常见有关Storm的面试题,希望对大家有用。

大数据面试题Storm开源软件

一、架构

1、Nimbus

负责资源分配和任务调度。新版本中的 nimbus 节点可以有多个做主备。

2、Zookeeper

协调集群，公共数据的存放（如心跳数据，集群的状态和配置信息），nimbus 将分配给 Supervisor 的任务写入到 Zookeeper

3、supervisor

负责接受 nimbus 分配的任务，启动和停止属于自己管理的 worker 进程。

4、worker

运行具体处理组件逻辑的进程。worker 中每一个 spout/bolt 的线程称为一个task. 在 storm0.8 之后，task 不再与物理线程对应，同一个 spout/bolt 的 task 可能会共享一个物理线程，该线程称为 executor。最新版本的 Jstorm 已经废除了 task 的概念

二、编程模型

1、Spout

Spout 是接受外部数据源的组件，将外部数据源转化成 Storm 内部的数据，以 Tuple 为基本的传输单元下发给 Bolt。（Tuple 是 Storm 内部中数据传输的基本单元，里面封装了一个 List 对象，用来保存数据。）

2、Bolt

Bolt 是接受 Spout 发送的数据，或上游的 bolt 的发送的数据。根据业务逻辑进行处理。发送给下一个 Bolt 或者是存储到某种介质上。介质可以是 mongodb 或 mysql，或者其他。

3、并行度

Worker：表示一个进程

Executor：表示由 worker 启动的线程

Task：实际执行数据处理的最小工作单元（注意，task 并不是线程）

并行度的设置：评估上游 kafka 每秒生产的数据量，分析 topic 每个 partition

每秒的数据量，partition 的数据量=SpoutTask 接受数据量SpoutTask 数量=partition 的数量

Worker 的设置：如果数据量大，worker 的数量等于 spouttask 的数量

4、消息不丢失

ack 机制即， spout 发送的每一条消息，

l在规定的时间内，spout 收到 Acker 的 ack 响应，即认为该 tuple 被后

续 bolt 成功处理

l在规定的时间内，没有收到 Acker 的 ack 响应 tuple，就触发 fail 动作，即认为该 tuple 处理失败，

l或者收到 Acker 发送的 fail 响应 tuple，也认为失败，触发 fail 动作。通过 Ack 机制，spout 发送出去的每一条消息，都可以确定是被成功处理或失败处理，从而可以让开发者采取动作。比如在 Meta 中，成功被处理，即可更新偏移量，当失败时，重复发送数据。因此，通过 Ack 机制，很容易做到保证所有数据均被处理，一条都不漏。

以上就是关于Storm开源软件的所有大数据面试题整理。大家一定要好好把这些问题梳理一遍，这样一来在面试的时候，就不至于因为紧张而发挥失常了。

大数据面试软件工具

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：数据分析四大误区避坑指导下一篇：学大数据学得想哭？大数据真有这么难学吗？

相关推荐 更多

Namenode HA 知识点讲解

今天，小编准备了今天，小编准备了Namenode HA 知识点讲解，现在分享给大家。

7648

2019-07-04 16:13:08

大数据面试
大数据面试题 Hadoop/MapReduce，Spark，Strom，Hive 的特点及适用场景

随着移动互联网的发展，云计算大数据开发求职者越来越多，面对如此激烈的市场竞争，小编特为大家整理了大数据面试题：Hadoop/MapReduce，Spark，Strom，Hive 的特点及适用场景。

9844

2019-07-09 15:08:42

大数据面试
大数据工程师常见面试题编程模型

在大数据工程师的面试过程中，编程模型的相关问题常常是绕不过去的一个考点。同时编程模型也是大数据工程师工作中非常重要的知识技能。下面就来讲讲Spout、Bolt、并行度、消息不丢失这几方面的内容，感兴趣的小伙伴就赶紧接着看下去吧！

6142

2019-10-14 18:46:44

大数据工程师大数据面试
大数据岗位Spark面试题整理附答案

众所周知，Spark作为一个集群计算平台和内存计算系统，它是专门为速度和通用目标设计的。从事大数据岗位的工作者，像是ETL工程师、Spark工程师、Hbase工程师、用户画像系统工程师都需要熟练掌握Spark相关知识点，因此Spark也是常常会出现的必考面试题。下面我整理了一些Spark面试题，并附上了答案，一起来看看做一做吧！

9040

2020-04-01 17:52:24

大数据岗位大数据面试
大数据Hadoop生态体系中常见的子系统有哪些？

Hadoop是一个针对大量数据进行分布式处理的软件框架，是一个开发和运行处理大规模数据的软件平台，是Appach的一个用Java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算，具有可靠、高效、可伸缩的特点，很多程序会用到这个框架。

5537

2021-03-17 13:58:05

大数据开发软件工具