理解 AR 和 MA 模型
1个回答
展开全部
最近在搞一点预测技术,用过去的数据,预测将来的数据。
比如说,在过去一周中,从周一到周日,武大郎卖的炊饼数是 20,20,20,20,20,20,20,那么下一周他每天能卖出多少?他必须预测出来,不然潘金莲的炊饼做多了,做少了,都要亏钱的。
大朗的炊饼好预测,看起来很简单。但西门大官然的店铺好多,要预测清楚,就不容易了。
我挑了不少方法,最终决定用 XGBoost,因为要考虑刮风下雨,还有大宋国假期这些因素的影响。
在此之前,我还是花了不少时间在 ARIMA 上。 毕竟,炊饼经营,是时序数据,ARIMA 对付稳定的时序数据,那是最擅长的。
研究 ARIMA,少不了要确定 p 和 q,要看 ACF 和 PACF 的截尾和拖尾。但各种各样的网文教程,包括大学教材,都是干巴巴的公式,就是不给个例子。
我甚为怀疑,好多写教材的,自己未必真搞懂了。
越看越晕。后来,看英文资料,才明白过来。老外真是太闲,也有耐心,每一个细节都写的明明白白,仿佛在教小学生。
先说 AR 模型,即自回归模型。即算一个函数,让每一个观察量(就是大郎每天卖的炊饼数)都依赖过去的量。比如上面武大郎的那个 20、20、20,就可以设计出一个函数,即,今天的炊饼量等于昨天的炊饼量。一般的公式为:
这是 1 阶,即 AR(1) 的公式。 看看, 和 之间相关性是个 。
而 AR(2) 则为:
举个例子, ,用 statsmodels.tsa.arima_process 模拟一个符合 AR(1) 的时序数据。画出图来:
要注意的是,只有 是我们指定的,而 和 则是 arima_process 随机给出的, 是一个固定值,而 则是每次都随机。
可以猜到, 对 的相关性为 0.9, 而 对 的相关性是 ,对 的相关性,则为 。这种相关性,会一直延续下去,传递下去。所以,自相关 ACF 图为:
看,一个漂亮的拖尾,拖的又长又整齐。
那么,这个 AR(1) 的偏自相关应该是什么? 这是一个让初学者晕的概念。
做个比喻吧。 小明、小明爸爸、小明爷爷,列祖列宗,构成一个 AR(1),记住,他们万万不可构成 AR(2)。所以,他们的DNA 就一代代往下传,小明和小明爸爸的自相关性是 1/2, 小明爷爷和小明爸爸的相关性是 1/2,而小明和小明爷爷的相关性是 1/4。
但小明与爷爷的偏自相关呢?太遗憾了,只能是零。 在这里脑袋里要拧个弯,把小明爸爸的影响去除掉,即小明爸爸给小明的那1/2基因去除掉,那小明和爷爷的偏自相关,就是零了。
如果不是零,那就坏了。
但小明和爸爸,爸爸和爷爷的偏自相关,其实就是他们之间的自相关,都是 1/2。
所以,上面这个 的偏自相关图 PACF 是:
看,多么经典的截尾,第一阶截断,如悬崖般。
如果是 RA(2),那么就会在第二阶截断。但是,上面那个比喻就进入一个非常艰难、难以理解的境地。
我们必须假设,小明的DNA有 1/2 来自爸爸,还有1/4 是直接来自爷爷。打字打到这里,有点受不了。注意,1/4是直接来自,即爷爷既是爷爷,也是爸爸。
好了,就当科幻来看吧。
下面来说 MA,即移动平均模型,第一个注意,此处的“移动平均模型”,不是计算 “移动平均值” 那么简单。
想象一个时间序列,互相之间,毫无关系。举个例子,三体世界,他们的天气每天都是跌宕起伏的,压根没有地球上的四季分明。三体上,第一天是40度,很热,但还能喘气。第二天就是零下200度,全部冻死。 第三天呢? 春暖花开23度,第四天就是3000度炼钢厂,行星成液体。
总之,每一天都是随机数。天与天之间毫无规律,没有关系。
咋办? 怎么预测明天的温度? 怎么决定明天是继续活着,还是赶紧阴干成皮?
没办法,只能搞个大概的移动平均,比如,把过去10 天的天气加总,然后除以 10。
这个三体天气,就是一个纯粹的 MA (10) 模型。
MA 的一般公式是:
注意观察, 和 没有直接关系了,不是 AR 了,而是通过移动平均 值才产生关系。
举个例子, ,用 statsmodels.tsa.arima_process 模拟一个符合 MA(1) 的时序数据。画出图来:
一样要注意,只有 是指定的, 都是随机值。
所以,可以看到 之间的自相关系数是 ,在此处是 -0.479。而R_{t} R_{t-2}的自相关系数是 0。(这一段没有理解,why ?倒是 2阶之后为 0,好理解。有聪明人指点指点。)
所以,此 MA 的 ACF 图是:
一个干净利落的截尾,止于 1 阶。
而 PACF 的图,则为:
对于为何一个标准的 MA(1) 的偏自相关居然是拖尾的,深思不解。 我的理解,它应该是个飘忽不定的震荡过程。 因为从1阶之后,从自相关角度看,已经没关系,那么偏自相关更应该没有规律的关系才对。
如果偏自相关还有关系,何以自相关居然没关系了?
在时序数据中 ARMA 或者 ARIMA 中,MA 是 AR 过程中剩余下的残差的回归。
比如说,在过去一周中,从周一到周日,武大郎卖的炊饼数是 20,20,20,20,20,20,20,那么下一周他每天能卖出多少?他必须预测出来,不然潘金莲的炊饼做多了,做少了,都要亏钱的。
大朗的炊饼好预测,看起来很简单。但西门大官然的店铺好多,要预测清楚,就不容易了。
我挑了不少方法,最终决定用 XGBoost,因为要考虑刮风下雨,还有大宋国假期这些因素的影响。
在此之前,我还是花了不少时间在 ARIMA 上。 毕竟,炊饼经营,是时序数据,ARIMA 对付稳定的时序数据,那是最擅长的。
研究 ARIMA,少不了要确定 p 和 q,要看 ACF 和 PACF 的截尾和拖尾。但各种各样的网文教程,包括大学教材,都是干巴巴的公式,就是不给个例子。
我甚为怀疑,好多写教材的,自己未必真搞懂了。
越看越晕。后来,看英文资料,才明白过来。老外真是太闲,也有耐心,每一个细节都写的明明白白,仿佛在教小学生。
先说 AR 模型,即自回归模型。即算一个函数,让每一个观察量(就是大郎每天卖的炊饼数)都依赖过去的量。比如上面武大郎的那个 20、20、20,就可以设计出一个函数,即,今天的炊饼量等于昨天的炊饼量。一般的公式为:
这是 1 阶,即 AR(1) 的公式。 看看, 和 之间相关性是个 。
而 AR(2) 则为:
举个例子, ,用 statsmodels.tsa.arima_process 模拟一个符合 AR(1) 的时序数据。画出图来:
要注意的是,只有 是我们指定的,而 和 则是 arima_process 随机给出的, 是一个固定值,而 则是每次都随机。
可以猜到, 对 的相关性为 0.9, 而 对 的相关性是 ,对 的相关性,则为 。这种相关性,会一直延续下去,传递下去。所以,自相关 ACF 图为:
看,一个漂亮的拖尾,拖的又长又整齐。
那么,这个 AR(1) 的偏自相关应该是什么? 这是一个让初学者晕的概念。
做个比喻吧。 小明、小明爸爸、小明爷爷,列祖列宗,构成一个 AR(1),记住,他们万万不可构成 AR(2)。所以,他们的DNA 就一代代往下传,小明和小明爸爸的自相关性是 1/2, 小明爷爷和小明爸爸的相关性是 1/2,而小明和小明爷爷的相关性是 1/4。
但小明与爷爷的偏自相关呢?太遗憾了,只能是零。 在这里脑袋里要拧个弯,把小明爸爸的影响去除掉,即小明爸爸给小明的那1/2基因去除掉,那小明和爷爷的偏自相关,就是零了。
如果不是零,那就坏了。
但小明和爸爸,爸爸和爷爷的偏自相关,其实就是他们之间的自相关,都是 1/2。
所以,上面这个 的偏自相关图 PACF 是:
看,多么经典的截尾,第一阶截断,如悬崖般。
如果是 RA(2),那么就会在第二阶截断。但是,上面那个比喻就进入一个非常艰难、难以理解的境地。
我们必须假设,小明的DNA有 1/2 来自爸爸,还有1/4 是直接来自爷爷。打字打到这里,有点受不了。注意,1/4是直接来自,即爷爷既是爷爷,也是爸爸。
好了,就当科幻来看吧。
下面来说 MA,即移动平均模型,第一个注意,此处的“移动平均模型”,不是计算 “移动平均值” 那么简单。
想象一个时间序列,互相之间,毫无关系。举个例子,三体世界,他们的天气每天都是跌宕起伏的,压根没有地球上的四季分明。三体上,第一天是40度,很热,但还能喘气。第二天就是零下200度,全部冻死。 第三天呢? 春暖花开23度,第四天就是3000度炼钢厂,行星成液体。
总之,每一天都是随机数。天与天之间毫无规律,没有关系。
咋办? 怎么预测明天的温度? 怎么决定明天是继续活着,还是赶紧阴干成皮?
没办法,只能搞个大概的移动平均,比如,把过去10 天的天气加总,然后除以 10。
这个三体天气,就是一个纯粹的 MA (10) 模型。
MA 的一般公式是:
注意观察, 和 没有直接关系了,不是 AR 了,而是通过移动平均 值才产生关系。
举个例子, ,用 statsmodels.tsa.arima_process 模拟一个符合 MA(1) 的时序数据。画出图来:
一样要注意,只有 是指定的, 都是随机值。
所以,可以看到 之间的自相关系数是 ,在此处是 -0.479。而R_{t} R_{t-2}的自相关系数是 0。(这一段没有理解,why ?倒是 2阶之后为 0,好理解。有聪明人指点指点。)
所以,此 MA 的 ACF 图是:
一个干净利落的截尾,止于 1 阶。
而 PACF 的图,则为:
对于为何一个标准的 MA(1) 的偏自相关居然是拖尾的,深思不解。 我的理解,它应该是个飘忽不定的震荡过程。 因为从1阶之后,从自相关角度看,已经没关系,那么偏自相关更应该没有规律的关系才对。
如果偏自相关还有关系,何以自相关居然没关系了?
在时序数据中 ARMA 或者 ARIMA 中,MA 是 AR 过程中剩余下的残差的回归。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
英华检测
2024-11-19 广告
2024-11-19 广告
英华检测|工业CT设备销售|工业ct和X射线检测服务丨4008959688 英华检测(上海)有限公司,专业从事工业CT/X射线设备销售及配套工业CT/X射线检测服务。目前在上海、东莞、北京、西安分别设有办公室,总部位于上海。公司计划将在全国...
点击进入详情页
本回答由英华检测提供
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询