sparkstreaming 窗口统计统计最近24小时数据,作业重启后怎么解决数据从零开始计算,请问怎么解决?
具体问题是:用sparkstreaming的window窗口统计,统计最近24小时的数据。怎么实现比如程序运行了3天的时候,失败之后手动重启后,程序运行后能继续获取到最近...
具体问题是:
用sparkstreaming的window窗口统计,统计最近24小时的数据。怎么实现比如程序运行了3天的时候,失败之后手动重启后,程序运行后能继续获取到最近24小时的数据,然后进行计算? 展开
用sparkstreaming的window窗口统计,统计最近24小时的数据。怎么实现比如程序运行了3天的时候,失败之后手动重启后,程序运行后能继续获取到最近24小时的数据,然后进行计算? 展开
1个回答
展开全部
最近在用spark做一些数据处理
针对我们的需求是需要实时刷新用户的最近24小时内的请求次数(每隔几十秒或者1分钟刷新一次),需要这个中间结果直接做一些业务逻辑。(这种逻辑是符合滑动窗口的模式的,每隔一定时间统计指定时间段内的数据)
但是问题在于目前窗口长度过长,每次统计24小时内的数据一次滑动会返回几万甚至几十万条数据,实际上只有几百个用户的次数发生了变化,其它的都是没用的,这个如何能过滤出来呢
针对我们的需求是需要实时刷新用户的最近24小时内的请求次数(每隔几十秒或者1分钟刷新一次),需要这个中间结果直接做一些业务逻辑。(这种逻辑是符合滑动窗口的模式的,每隔一定时间统计指定时间段内的数据)
但是问题在于目前窗口长度过长,每次统计24小时内的数据一次滑动会返回几万甚至几十万条数据,实际上只有几百个用户的次数发生了变化,其它的都是没用的,这个如何能过滤出来呢
追问
你好,你们用的窗口统计,是怎么保证作业重启之后还能获取到最近24小时的数据?
你的问题是只想要有变化的数据?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询