spark streaming 和kafka 数据丢失怎么处理

 我来答

2个回答

#热议# 为什么说不要把裤子提到肚脐眼？

百度网友9f80aa292
2020-11-21

知道答主

回答量：1

采纳率：0%

帮助的人：552

我也去答题访问个人页

关注

展开全部

首先要保证操作是幂等的，也就是多次写入只会产生一种结果
然后用direct的方式去读kafka，数据处理完再保存偏移量
如果不是幂等的操作会导致重复操作，落到的数据库里可能有两条相同的记录
最好的方法就是自己维护偏移量，一般使用redis来保存，效果很好，zookeeper也可以

已赞过 已踩过<

评论收起

衣霞遇春
2019-06-23 · TA获得超过3.6万个赞

知道大有可为答主

回答量：1.2万

采纳率：31%

帮助的人：1191万

我也去答题访问个人页

关注

展开全部

前面应该还有个数据生产者，比如flume.
flume负责生产数据，发送至kafka。
spark
streaming作为消费者，实时的从kafka中获取数据进行计算。
计算结果保存至redis，供实时推荐使用。
flume+kafka+spark+redis是实时数据收集与计算的一套经典架构...

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

spark streaming 和kafka 数据丢失怎么处理

其他类似问题

为你推荐：