在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据Storm分布式实时处理框架是什么？用在哪儿？

发布时间：2022-03-01 14:13:44 浏览 4012 来源：博学谷作者：琦琦

大数据 Storm分布式实时处理框架是什么？用在哪儿？Storm是Twitter开源的分布式实时大数据处理框架，是一个免费的开源分布式实时计算系统，使用起来比较简单可以与任何编程语言一起使用。Apache Storm有很多用例如实时分析、在线机器学习、连续计算、分布式RPC、ETL等。

Storm分布式实时大数据处理框架

1、Storm是什么？

Storm是Twitter开源的分布式实时大数据处理框架，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推荐系统、预警系统、金融系统等，大数据实时处理解决方案的应用日趋广泛，目前已是分布式技术领域新爆发点，而Storm更是流计算技术中的佼佼者和主流。

Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Hadoop提供了map、reduce原语，使我们的批处理程序变得简单和高效。同样Storm也为实时计算提供了一些简单高效的原语，而Storm的Trident是基于Storm原语更高级的抽象框架，类似于基于Hadoop的Pig框架让开发更加便利和高效。

2、Storm应用场景

推荐系统、金融系统、预警系统、网站统计、交通路况实时系统等。

3、Storm特性有哪些？

（1）适用场景广泛： storm可以实时处理消息和更新DB，对一个数据量进行持续的查询并返回客户端(持续计算)，对一个耗资源的查询作实时并行化的处理(分布式方法调用，即DRPC)，storm的这些基础API可以满足大量的场景。

（2）可伸缩性高: Storm的可伸缩性可以让storm每秒可以处理的消息量达到很高。扩展一个实时计算任务，你所需要做的就是加机器并且提高这个计算任务的并行度。Storm使用ZooKeeper来协调集群内的各种配置使得Storm的集群可以很容易的扩展。

（3）保证无数据丢失：实时系统必须保证所有的数据被成功的处理。那些会丢失数据的系统的适用场景非常窄，而storm保证每一条消息都会被处理，这一点和S4相比有巨大的反差。

（4）异常健壮： storm集群非常容易管理，轮流重启节点不影响应用。

（5）容错性好：在消息处理过程中出现异常， storm会进行重试

（6）语言无关性： Storm的topology和消息处理组件(Bolt)可以用任何语言来定义，这一点使得任何人都可以使用storm.

4、storm集群结构

Nimbus 和Supervisors 之间所有的协调工作是通过一个Zookeeper 集群。Nimbus进程和 Supervisors 进程是无法直接连接，并且是无状态的; 所有的状态维持在Zookeeper中或保存在本地磁盘上。你可以 kill -9 Nimbus 或Supervisors 进程，而不需要做备份。这种设计导致storm集群具有令人难以置信的稳定性，并且无耦合。

5、storm工作原理是什么？

Nimbus 负责在集群分发的代码，topo只能在nimbus机器上提交，将任务分配给其他机器，和故障监测。Supervisor，监听分配给它的节点，根据Nimbus 的委派在必要时启动和关闭工作进程。每个工作进程执行topology 的一个子集。一个运行中的topology 由很多运行在很多机器上的工作进程组成。

在Storm中有对于流stream的抽象，流是一个不间断的无界的连续tuple，注意Storm在建模事件流时，把流中的事件抽象为tuple即元组，Storm认为每个stream都有一个源，也就是原始元组的源头，叫做Spout(管口)处理stream内的tuple，抽象为Bolt，bolt可以消费任意数量的输入流，只要将流方向导向该bolt，同时它也可以发送新的流给其他bolt使用，这样一来，只要打开特定的spout再将spout中流出的tuple导向特定的bolt，bolt又对导入的流做处理后再导向其他bolt或者目的地。

假设spout就是水龙头且每个水龙头里流出的水不同，想拿到哪种水就拧开哪个水龙头，然后使用管道将水龙头的水导向到一个水处理器(bolt)，水处理器处理后再使用管道导向另一个处理器或者存入容器中。为了增大水处理效率很自然就想到在同个水源处接上多个水龙头并使用多个水处理器，这样就可以提高效率。

6、Topology

Storm将流中元素抽象为tuple，一个tuple就是一个值列表value list，list中的每个value可以是任意可序列化的类型。拓扑的每个节点都要说明它所发射出的元组的字段的name，其他节点只需要订阅该name就可以接收处理。

7、storm相关概念

Streams消息流，消息流是一个没有边界的tuple序列，而这些tuples会被以一种分布式的方式并行创建和处理。每个tuple可以包含多列，字段类型可以是： integer, long, short, byte, string, double, float, boolean和byte array。你还可以自定义类型 — 只要你实现对应的序列化器。Spouts是topology消息生产者。Spout从一个外部源(消息队列)读取数据向topology发出tuple。消息源Spouts可以是可靠的也可以是不可靠的。一个可靠的消息源可以重新发射一个处理失败的tuple，一个不可靠的消息源Spouts不会。

Spout类的方法nextTuple不断发射tuple到topology，storm在检测到一个tuple被整个topology成功处理的时候调用ack, 否则调用fail。storm只对可靠的spout调用ack和fail。

Bolts 消息处理者，消息处理逻辑被封装在bolts里面，Bolts可以做很多事情：过滤，聚合，查询数据库等。Bolts可以简单的做消息流的传递。复杂的消息流处理往往需要很多步骤，从而也就需要经过很多Bolts。第一级Bolt的输出可以作为下一级Bolt的输入。而Spout不能有一级。Bolts的主要方法是execute(死循环)连续处理传入的tuple，成功处理完每一个tuple调用OutputCollector的ack方法，以通知storm这个tuple被处理完成了。当处理失败时，可以调fail方法通知Spout端可以重新发送该tuple。

流程是： Bolts处理一个输入tuple, 然后调用ack通知storm自己已经处理过这个tuple了。storm提供了一个IBasicBolt会自动调用ack。Bolts使用OutputCollector来发射tuple到下一级Blot。

大数据技术大数据课程

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据之Spark框架中RDD和DataFrame的区别下一篇：大数据批流处理之Lambda架构学习

相关推荐 更多

大数据行业必须掌握的核心技术

大数据为什么这么火？企业现在大数据人才招聘更注重哪些技能？博学谷小编通过在招聘网站的大量招聘数据发现，目前大部分企业招聘要求中重点体现5点大数据的核心技术。

11016

2019-06-11 16:31:43

大数据开发大数据技术
5分钟掌握Hadoop环境搭建流程

Hadoop是大数据技术的基础，它在大数据技术体系中的地位是非常重要的。目前Hadoop是主流的分布式系统基础架构之一，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。所以对于Hadoop基础知识的掌握的扎实程度，会决定你在大数据技术道路上走多远。首先我们来学习一下Hadoop环境搭建流程吧。

7715

2019-08-14 10:19:35

大数据开发大数据技术专业技能
用户画像在电商中的价值和作用分析

在了解用户画像在电商行业的应用之前，我们首先要清楚什么是用户画像。简单来说，用户画像就是把用户的信息进行标签化，从而提供给企业和公司。在当下这个大数据时代，各个企业公司早就把用户画像，作为重要的经营战略调整依据。因此，用户画像在电商中的价值和作用不言而喻。下面就为大家着重讲讲用户画像的定义、作用和价值。

9664

2019-12-16 17:11:05

大数据技术大数据分析
计算机大数据应用技术就业前景怎么样？

计算机大数据应用技术就业前景怎么样？作为目前最为广泛和热门的新兴技术，计算机大数据应用技术的意义不在于存储海量的的数据信息，而在于对这些数据进行专业化处理，从而更好地辅助工作中的各项决策。因此，掌握了计算机大数据应用技术，其就业前景自然广阔明亮无比。关于大数据的更多就业方向选择，我们可以看看以下的具体分析。

13250

2020-01-14 15:33:07

大数据技术大数据开发
2021年大数据行业发展前景及岗位方向如何？

中国大数据行业的发展依然呈稳步上升趋势，大数据总体发展水平较好在各行业都有应用，其中金融大数据、政务大数据的应用水平高，同时交通、电信、商贸、医疗、教育、旅游等行业大数据的发展水平也有显着提升。

5576

2021-03-04 16:37:45

大数据技术就业前景