在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
在大数据工程师的面试过程中,编程模型的相关问题常常是绕不过去的一个考点。同时编程模型也是大数据工程师工作中非常重要的知识技能。下面就来讲讲Spout、Bolt、并行度、消息不丢失这几方面的内容,感兴趣的小伙伴就赶紧接着看下去吧!
1、Spout
Spout 是接受外部数据源的组件,将外部数据源转化成 Storm 内部的数据, 以 Tuple 为基本的传输单元下发给 Bolt。(Tuple 是 Storm 内部中数据传输的基本单元,里面封装了一个 List 对象,用来保存数据。)
2、Bolt
Bolt 是接受 Spout 发送的数据,或上游的 bolt 的发送的数据。根据业务逻辑进行处理。发送给下一个 Bolt 或者是存储到某种介质上。介质可以是 mongodb 或 mysql,或者其他。
3、并行度
Worker:表示一个进程。
Executor:表示由 worker 启动的线程。
Task:实际执行数据处理的最小工作单元(注意,task 并不是线程)。
并行度的设置:评估上游 kafka 每秒生产的数据量,分析 topic 每个 partition。每秒的数据量,partition 的数据量=SpoutTask 接受数据量SpoutTask 数量=partition 的数量。
Worker 的设置:如果数据量大,worker 的数量等于 spouttask 的数量。
4、消息不丢失
ack 机制即, spout 发送的每一条消息,在规定的时间内,spout 收到 Acker 的 ack 响应,即认为该 tuple 被后,续 bolt 成功处理。在规定的时间内,没有收到 Acker 的 ack 响应 tuple,就触发 fail 动作, 即认为该 tuple 处理失败,或者收到 Acker 发送的 fail 响应 tuple,也认为失败,触发 fail 动作。通过 Ack 机制,spout 发送出去的每一条消息,都可以确定是被成功处理或失败处理, 从而可以让开发者采取动作。比如在 Meta 中,成功被处理,即可更新偏移量,当失败时,重复发送数据。因此,通过 Ack 机制,很容易做到保证所有数据均被处理,一条都不漏。
以上就是大数据工程师有关编程模型知识点的常见面试题,大家都弄明白了吗?想要了解大数据工程师更多的面试问题,可以来博学谷官网体验大数据就业指导课程。认真学完一套就业指导课程,一定能够帮助大家从众多面试者中脱颖而出。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据Hbase面试宝典(中)
应广大同学的需求,本文继续整理了大数据HBase面试问题,希望大家阅读本篇文章以后有所收获,能够对大数据技术的理解更加深入和全面。
9011
2019-07-04 13:58:56
大数据面试:数据仓库工具hive面试题集锦
进入DATE时代,大数据技术成为互联网发展的核心要素之一。与此同时大数据开发工程师的薪资也成为行业内高薪的代表。想从事大数据开发需要掌握多种核心技术:Hadoop、Hive、Storm、Spark、Scala等等。而且这些技术知识点已经成为大数据工程师进入职场时面试中必备的考点。这里主要和大家分享一下数据仓库工具hive相关的面试题!
16170
2019-07-05 17:30:53
大数据kafka常见面试题整理附答案
kafka一直都是大数据面试题的必考点。因此,小编整理了有关kafka知识点的大数据面试题,主要针对kafka的定义、与传统消息系统的区别、kafka集群的安装与搭建三大问题,并附上了参考答案。需要梳理kafka知识点的同学可以看看。
10576
2019-08-06 16:23:49
大数据疑难解答 Hbase内部是什么机制?
众所周知,HBase是一个非关系型数据库,它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中,还是大数据的工作中,这都是一个经常会出现的难题,然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。
7091
2019-10-17 18:13:28
学好大数据能做什么工作?
今年依旧是大数据火爆的一年,因为大数据行业的薪资待遇以及发展前景,我们可以看到越来越多的人想要投身于大数据行业中。虽然大家对大数据的岗位都十分看好,但是学好大数据能做什么工作?相信绝大多数的初学者是不清楚的。为了解决大家对于大数据岗位的疑惑,下面我们就来聊一聊大数据的相关职位以及具体的工作内容。
5688
2020-07-10 17:51:33