在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战,而Storm让大数据分析变得轻松加愉快。今天,小编和大家分享大数据面试题之Storm实时看板案例。
1、需求分析
平台在活动促销日(例如双 11)要求实时展示当日的一些销售信息我们从三个维度去统计计算:
平台运维角度统计指标: 平台总销售额、平台下单人数、平台商品销售数量。
商品销售角度统计指标: 每个商品总销售额、每个商品购买人数、每个商品销售数量。
店铺销售角度统计指标: 每个店铺总销售额、每个店铺购买人数、每个店铺销售数量。
2、确定数据源
数据源:订单系统与支付系统产生的数据。
3、确定采集方案
订单系统和支付系统产生的数据 通过 ActiveMQ 到 kafka 中,Storm 集成kafka 获取数据。(注:为什么用 ActiveMQ?一方面,电商业务系统当中需要用到事务支持,只能用比较严谨的 jms 系统来实现,所以考虑到用 ActiveMQ。另一方面,kafka 直接读取数据库,会影响数据库速度。所以订单系统的数据通过 ActiveMQ 这个中间件来落地到数据库,kafka从ActiveMQ 中间件中取数据,就可以避免直接读数据库的问题。)
4、确定存储
我们将 Storm 处理后的数据,通过 Redis 来累加计数并存储在 Redis 中。
5、数据计算
编写 Storm 代码:Storm 与 kafka 整合来获取到数据,将每一条数据信息,利用 Redis 中 incrBy 这个命令来累加计数并存储在 Redis 中。
6、展现
可以写一个定时器,定时的去 Redis 中获取结果数据,展示到 web 界面上。
7、storm 日志监控告警系统
8、需求分析
实现项目中日志监控的功能,需要做到日志监控实时告警,例如系统中出现任何异常,触发任何的告警规则,都可以实时通过短信或者邮件告知相关系统负责人。
9、确定数据源
每个业务系统(如: 订单系统,商品管理系统,用户系统)产生的日志信息。
10、确定采集方案
将日志数据 通过 flume 采集到 kafka 中,Storm 集成 kafka 获取数据。
11、确定存储
将触发告警规则的数据,存储在 MySQL 数据库中。
12、数据计算
·通过自定义flume 拦截器,给不同系统产生的日志数据前加上一个appId 来做唯一标识(不同系统对应的告警规则和负责人不同,所以这里要加一个唯一标识方便我们查找对应的规则和负责人)。
·Storm 代码编写步骤:
(1)、获取 kafka 中的数据。
(2)、设置定时器,定时读取在 MySQL 数据库中的告警规则(数据库中的告警规则我们可以随时去修改,所以要采用定时器去读取,保证拿到是最新的规则)。
(3)、将获取到的数据,与告警规则进行匹配,得到匹配成功的告警数据信息。
(4)、将告警信息 以邮件,或者短信 方式发送给对应的负责人(对应人的信息,从 MySQL 数据库中获取)。
(5)、最后将警告信息存储到我们的 MySQL 数据库中(方便以后查询异常记录)。
以上就是小编整理的大数据面试题之Storm实时看板案例,大家都弄明白了吗?
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
做大数据开发累吗?需不需要加班?
做大数据开发累吗?需不需要加班?首先我们来了解大数据的工作内容,用一句话总结就是分析历史、预测未来、优化选择。总体上看来,大数据开发的工作需要按部就班进行,因此一般不需要加班,但是偶尔也会因为额外的需求增加以及对项目进度的把控而需要加班。不过,就与其它的研发技术岗位比较,大数据开发已经算是比较轻松的工作了。
17495
2019-09-16 10:10:54
大数据开发工程师需要了解的热门技术
目前大数据、人工智能、区块链已经成为未来互联网核心的发展趋势。人工智能技术还未成熟,而区块链的落地应用也缺乏市场的支撑,而大数据技术已经逐渐融入到各行各业,对于大数据开发工程师而言,哪些技术是受欢迎的?应该注重哪些方面技术的学习?
5995
2019-12-10 18:47:11
零基础参加大数据培训就业前景好不好?
零基础参加大数据培训就业前景好不好?回答这个问题不能一概而论,要具体问题具体分析。就目前的大数据就业形势分析,大数据人才的缺口是相当大的。当然大数据并不是一个低门槛的技术岗位,因此一些零基础想要转行的朋友就必须通过系统正规的培训,在熟练掌握大数据核心技术的基础上,才能在竞争日渐激烈的就业市场中脱颖而出。因此,参加一个靠谱的培训课程的重要性毋庸置疑。
6375
2020-01-03 15:32:59
大数据之Spark框架中RDD和DataFrame的区别
大数据之Spark框架中RDD和DataFrame的区别是什么?RDD(提供了一种高度受限的共享内存模型;DataFrame是一种分布式的数据集,并且以列的方式组合的。在spark中RDD、DataFrame是最常用的数据类型,在使用的过程中你知道两者的区别和各自的优势吗?关于如何具体的应用我们今天就好好的分析一下。
3963
2022-02-18 11:32:22
博学谷狂野大数据学习多长时间?
狂野大数核心课程以全程直播方式授课,共计330小时,如果每天能保证4小时的高效学习效率,需要学习3个月左右,因为每个人的学习情况不一样学习周期会有所差别。
3370
2022-09-16 15:31:26