在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创盘点五种主流的大数据计算框架

发布时间：2019-07-02 19:04:03 浏览 17840 来源：博学谷资讯作者：照照

目前市面上有很多大数据框架，如批处理框架Hadoop，流处理框架Storm，以及混合处理型框架Flink和Spark，本文就对当前的分布式计算框架进行了系统的回顾与盘点。

盘点五种主流的大数据计算框架

Hadoop框架

提起大数据，第一个想起的肯定是Hadoop，因为Hadoop是目前世界上应用最广泛的大数据工具，他凭借极高的容错率和极低的硬件价格，在大数据市场上风生水起。Hadoop还是第一个在开源社区上引发高度关注的批处理框架，他提出的Map和Reduce的计算模式简洁而优雅。迄今为止，Hadoop已经成为了一个广阔的生态圈，实现了大量算法和组件。由于Hadoop的计算任务需要在集群的多个节点上多次读写，因此在速度上会稍显劣势，但是其吞吐量也同样是其他框架所不能匹敌的。

Storm框架
与Hadoop的批处理模式不同，Storm采用的是流计算框架，由Twitter开源并且托管在GitHub上。与Hadoop类似的是，Storm也提出了两个计算角色，分别为Spout和Bolt。如果说Hadoop是水桶，只能一桶一桶的去井里扛，那么Storm就是水龙头，只要打开就可以源源不断的出水。Storm支持的语言也比较多，Java、Ruby、Python等语言都能很好的支持。由于Storm是流计算框架，因此使用的是内存，延迟上有极大的优势，但是Storm不会持久化数据。

Samza框架
Smaza也是一种流计算框架，但他目前只支持JVM语言，灵活度上略显不足，并且Samza必须和Kafka共同使用。但是响应的，其也继承了Kafka的低延时、分区、避免回压等优势。对于已经有Hadoop+Kafka工作环境的团队来说，Samza是一个不错的选择，并且Samza在多个团队使用的时候能体现良好的性能。

Spark框架
Spark属于前两种框架形式的集合体，是一种混合式的计算框架。它既有自带的实时流处理工具，也可以和Hadoop集成，代替其中的MapReduce，甚至Spark还可以单独拿出来部署集群，但是还得借助HDFS等分布式存储系统。Spark的强大之处在于其运算速度，与Storm类似，Spark也是基于内存的，并且在内存满负载的时候，硬盘也能运算，运算结果表示，Spark的速度大约为Hadoop的一百倍，并且其成本可能比Hadoop更低。但是Spark目前还没有像Hadoop哪有拥有上万级别的集群，因此现阶段的Spark和Hadoop搭配起来使用更加合适。

Flink框架
Flink也是一种混合式的计算框架，但是在设计初始，Fink的侧重点在于处理流式数据，这与Spark的设计初衷恰恰相反，而在市场需求的驱使下，两者都在朝着更多的兼容性发展。Flink目前不是很成熟，更多情况下Flink还是起到一个借鉴的作用。

以上就是现在五大比较主流的大数据运算框架的盘点，希望对大家有帮助。

大数据框架

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇： spark中的RDD是什么？RDD有哪些特性？下一篇：常用的数据分析方法论有哪些？

相关推荐 更多

大数据Lambda架构概念及应用

Lambda Architecture 概念Mathan Marz的大作Big Data: Principles and best practices of scalable real-time data systems介绍了Lambda Architecture的概念，用于在大数据架构中，如何让real-time与batch job更好地结合起来，以达成对大数据的实时处理。

11768

2020-09-04 17:57:48

大数据技术大数据框架
掌握Hive架构需要学什么?

Hive是建立在Hadoop上的数据仓库基础构架，它提供了一系列的工具，可以用来进行数据提取转化加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类 SQL 查询语言，它允许熟悉SQL的用户查询数据。因此掌握Hive是学习大数据的必修课，那么掌握Hive架构需要学什么呢？本文将为大家讲述Hive的具体学习内容，下面是Hive视频教程的学习大纲：

6837

2020-05-11 18:05:41

大数据课程大数据框架数据库
Hadoop定义及其安全优势

Hadoop定义及其安全优势，Hadoop由协同运行、构建Hadoop框架的多个模块组成。MapReduce是一种出色的文本处理引擎，Hadoop支持Kerberos身份验证。

7566

2020-05-27 16:58:50

大数据框架
大数据开发离线计算框架知识点总结

大数据开发离线计算框架知识点总结，大数据在带来发展机遇的同时，也带来了新的挑战，催生了新技术的发展和旧技术的革新。大数据离线计算技术应用于静态数据的离线计算和处理，框架设计的初衷是为了解决大规模、非实时数据计算，更加关注整个计算框架的吞吐量。

7989

2020-07-16 16:41:14

大数据技术大数据框架
Spark与Hadoop大数据计算框架区别是什么？

ApacheSpark专为大规模数据处理而设计的快速通用的计算引擎，而Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop和Spark都是大数据框架，但各自存在的目的不同。

7047

2021-04-12 10:07:37

大数据框架