理解 AR 和 MA 模型

 我来答
温屿17
2022-06-18 · TA获得超过1.2万个赞
知道小有建树答主
回答量:827
采纳率:0%
帮助的人:94.6万
展开全部
最近在搞一点预测技术,用过去的数据,预测将来的数据。

比如说,在过去一周中,从周一到周日,武大郎卖的炊饼数是 20,20,20,20,20,20,20,那么下一周他每天能卖出多少?他必须预测出来,不然潘金莲的炊饼做多了,做少了,都要亏钱的。

大朗的炊饼好预测,看起来很简单。但西门大官然的店铺好多,要预测清楚,就不容易了。

我挑了不少方法,最终决定用 XGBoost,因为要考虑刮风下雨,还有大宋国假期这些因素的影响。

在此之前,我还是花了不少时间在 ARIMA 上。 毕竟,炊饼经营,是时序数据,ARIMA 对付稳定的时序数据,那是最擅长的。

研究 ARIMA,少不了要确定 p 和 q,要看 ACF 和 PACF 的截尾和拖尾。但各种各样的网文教程,包括大学教材,都是干巴巴的公式,就是不给个例子。

我甚为怀疑,好多写教材的,自己未必真搞懂了。

越看越晕。后来,看英文资料,才明白过来。老外真是太闲,也有耐心,每一个细节都写的明明白白,仿佛在教小学生。

先说 AR 模型,即自回归模型。即算一个函数,让每一个观察量(就是大郎每天卖的炊饼数)都依赖过去的量。比如上面武大郎的那个 20、20、20,就可以设计出一个函数,即,今天的炊饼量等于昨天的炊饼量。一般的公式为:

这是 1 阶,即 AR(1) 的公式。 看看,  和   之间相关性是个   。

而 AR(2) 则为:

举个例子, ,用 statsmodels.tsa.arima_process 模拟一个符合 AR(1) 的时序数据。画出图来:

要注意的是,只有   是我们指定的,而   和   则是 arima_process 随机给出的,  是一个固定值,而  则是每次都随机。

可以猜到,  对    的相关性为 0.9, 而   对  的相关性是  ,对 的相关性,则为  。这种相关性,会一直延续下去,传递下去。所以,自相关 ACF 图为:

看,一个漂亮的拖尾,拖的又长又整齐。

那么,这个 AR(1) 的偏自相关应该是什么? 这是一个让初学者晕的概念。

做个比喻吧。 小明、小明爸爸、小明爷爷,列祖列宗,构成一个 AR(1),记住,他们万万不可构成 AR(2)。所以,他们的DNA 就一代代往下传,小明和小明爸爸的自相关性是 1/2, 小明爷爷和小明爸爸的相关性是 1/2,而小明和小明爷爷的相关性是 1/4。

但小明与爷爷的偏自相关呢?太遗憾了,只能是零。 在这里脑袋里要拧个弯,把小明爸爸的影响去除掉,即小明爸爸给小明的那1/2基因去除掉,那小明和爷爷的偏自相关,就是零了。

如果不是零,那就坏了。 

但小明和爸爸,爸爸和爷爷的偏自相关,其实就是他们之间的自相关,都是 1/2。

所以,上面这个   的偏自相关图 PACF 是:

看,多么经典的截尾,第一阶截断,如悬崖般。 

如果是 RA(2),那么就会在第二阶截断。但是,上面那个比喻就进入一个非常艰难、难以理解的境地。

我们必须假设,小明的DNA有 1/2 来自爸爸,还有1/4 是直接来自爷爷。打字打到这里,有点受不了。注意,1/4是直接来自,即爷爷既是爷爷,也是爸爸。

好了,就当科幻来看吧。

下面来说 MA,即移动平均模型,第一个注意,此处的“移动平均模型”,不是计算 “移动平均值” 那么简单。

想象一个时间序列,互相之间,毫无关系。举个例子,三体世界,他们的天气每天都是跌宕起伏的,压根没有地球上的四季分明。三体上,第一天是40度,很热,但还能喘气。第二天就是零下200度,全部冻死。 第三天呢? 春暖花开23度,第四天就是3000度炼钢厂,行星成液体。

总之,每一天都是随机数。天与天之间毫无规律,没有关系。

咋办? 怎么预测明天的温度? 怎么决定明天是继续活着,还是赶紧阴干成皮?

没办法,只能搞个大概的移动平均,比如,把过去10 天的天气加总,然后除以 10。

这个三体天气,就是一个纯粹的 MA (10) 模型。

MA 的一般公式是:

注意观察,  和   没有直接关系了,不是 AR 了,而是通过移动平均   值才产生关系。

举个例子, ,用 statsmodels.tsa.arima_process 模拟一个符合 MA(1) 的时序数据。画出图来:

一样要注意,只有   是指定的,  都是随机值。

所以,可以看到   之间的自相关系数是  ,在此处是 -0.479。而R_{t} R_{t-2}的自相关系数是 0。(这一段没有理解,why ?倒是 2阶之后为 0,好理解。有聪明人指点指点。)

所以,此 MA 的 ACF 图是:

一个干净利落的截尾,止于 1 阶。

而 PACF 的图,则为:

对于为何一个标准的 MA(1) 的偏自相关居然是拖尾的,深思不解。 我的理解,它应该是个飘忽不定的震荡过程。 因为从1阶之后,从自相关角度看,已经没关系,那么偏自相关更应该没有规律的关系才对。

如果偏自相关还有关系,何以自相关居然没关系了?

在时序数据中 ARMA 或者 ARIMA 中,MA 是 AR 过程中剩余下的残差的回归。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式