spark streaming 和kafka 数据丢失怎么处理

 我来答
百度网友9f80aa292
2020-11-21
知道答主
回答量:1
采纳率:0%
帮助的人:552
展开全部
首先要保证操作是幂等的,也就是多次写入只会产生一种结果
然后用direct的方式去读kafka,数据处理完再保存偏移量
如果不是幂等的操作会导致重复操作,落到的数据库里可能有两条相同的记录
最好的方法就是自己维护偏移量,一般使用redis来保存,效果很好,zookeeper也可以
衣霞遇春
2019-06-23 · TA获得超过3.6万个赞
知道大有可为答主
回答量:1.2万
采纳率:31%
帮助的人:1191万
展开全部
前面应该还有个数据生产者,比如flume.
flume负责生产数据,发送至kafka。
spark
streaming作为消费者,实时的从kafka中获取数据进行计算。
计算结果保存至redis,供实时推荐使用。
flume+kafka+spark+redis是实时数据收集与计算的一套经典架构...
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式