sparkstreaming 窗口统计统计最近24小时数据,作业重启后怎么解决数据从零开始计算,请问怎么解决?

具体问题是:用sparkstreaming的window窗口统计,统计最近24小时的数据。怎么实现比如程序运行了3天的时候,失败之后手动重启后,程序运行后能继续获取到最近... 具体问题是:
用sparkstreaming的window窗口统计,统计最近24小时的数据。怎么实现比如程序运行了3天的时候,失败之后手动重启后,程序运行后能继续获取到最近24小时的数据,然后进行计算?
展开
 我来答
百度网友70ea62aa
2018-09-03 · TA获得超过2050个赞
知道小有建树答主
回答量:1197
采纳率:71%
帮助的人:223万
展开全部
最近在用spark做一些数据处理
针对我们的需求是需要实时刷新用户的最近24小时内的请求次数(每隔几十秒或者1分钟刷新一次),需要这个中间结果直接做一些业务逻辑。(这种逻辑是符合滑动窗口的模式的,每隔一定时间统计指定时间段内的数据)
但是问题在于目前窗口长度过长,每次统计24小时内的数据一次滑动会返回几万甚至几十万条数据,实际上只有几百个用户的次数发生了变化,其它的都是没用的,这个如何能过滤出来呢
追问
你好,你们用的窗口统计,是怎么保证作业重启之后还能获取到最近24小时的数据?
你的问题是只想要有变化的数据?
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式