sparkstreaming 窗口统计统计最近24小时数据，作业重启后怎么解决数据从零开始计算，请问怎么解决？

具体问题是：用sparkstreaming的window窗口统计，统计最近24小时的数据。怎么实现比如程序运行了3天的时候，失败之后手动重启后，程序运行后能继续获取到最近... 具体问题是：
用sparkstreaming的window窗口统计，统计最近24小时的数据。怎么实现比如程序运行了3天的时候，失败之后手动重启后，程序运行后能继续获取到最近24小时的数据，然后进行计算？展开

 我来答

1个回答

#热议# 应届生在签三方时要注意什么？

百度网友70ea62aa
2018-09-03 · TA获得超过2050个赞

知道小有建树答主

回答量：1197

采纳率：71%

帮助的人：223万

我也去答题访问个人页

关注

展开全部

最近在用spark做一些数据处理
针对我们的需求是需要实时刷新用户的最近24小时内的请求次数（每隔几十秒或者1分钟刷新一次），需要这个中间结果直接做一些业务逻辑。（这种逻辑是符合滑动窗口的模式的，每隔一定时间统计指定时间段内的数据）
但是问题在于目前窗口长度过长，每次统计24小时内的数据一次滑动会返回几万甚至几十万条数据，实际上只有几百个用户的次数发生了变化，其它的都是没用的，这个如何能过滤出来呢

追问

你好，你们用的窗口统计,是怎么保证作业重启之后还能获取到最近24小时的数据？
你的问题是只想要有变化的数据？

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

sparkstreaming 窗口统计统计最近24小时数据，作业重启后怎么解决数据从零开始计算，请问怎么解决？

其他类似问题

为你推荐：