「考える技術としての統計学」 飯田泰之 5

時系列による未来予想

何かを予測したいとき、回帰分析は強力な予測の手段である。だけどそれでは十分じゃないときもある。

  • 「Aがaだけ変化したら,Bがbだけ変わる」と分かっていたとしても、そもそもAがどれだけ変化するのか分からないと意味ない。
  • そもそも説明変数を決めるのが大変。説明変数を方っぱしからいれようにも、説明変数はデータの数より少くなければいけないという制約がある。それに説明変数が増えるとノイズが増える(see also:情報量基準)。「データは多く、説明変数は少なく」が理想

データ数が増やしたくない、説明変数は減らしたい、という状況で予想するには時系列分析が便利。短期の予測の強い見方。

時系列分析の思考法

今のデータがわかっていたとすると、そのデータは無数の要因から決定されており、無数の要因に関する情報がつまっているのだ、と考える。すると、未来のデータの説明変数として今のデータを使うことで、無数の要因を含む回帰を実行できる。
時系列分析の特徴は具体的な因果関係に立ち入らず、過去の変化から未来の変化を予測するところにある。

自己回帰モデル(ARモデル Auto Regression Model)

前期の値と、よくわからない原因(ショック)から今期の値が決まる。

AR(1):今期の値=定数+ρ*(前期の値)+ショック

という式のρを最小二乗法で推計するのがAR(1)モデルである。このときショックは平均0で有限の標準偏差を持つランダムなショック(通称ホワイトノイズ)だと仮定する。前々期までのデータを含む場合をAR(2)という風に拡張できる。

ショックが存在しないと仮定すると、ρの値が1より大きければ、無限大に発散する。非常識な仮定なので、ρの値は1より大きくないと仮定する。ρが±1の範囲にはいっていれば、ある定数に収束する。その収束の先を定常値という。ρが±1丁度の場合は後述する。

移動平均モデル(Moving Average Model)

「過去のよくわからない原因」がつみかさなって今のデータが出来ていると考えるののが移動平均モデル。

MA(1):今期の値=定数 + 今期のショック + θ*前期のショック

θの絶対値は1より小さいと仮定する。MA(2),MA(3)と拡張できる。長期定常値は定数項そのものである。

ショックの違い
  • MAモデルはショックをひきずらない。例えばMA(2)だと前々期までのショックしか影響しない。
  • ARモデルはショックをひきずる。(前期の値の中にショックの影響が残っている。)

使い分け

  • 他店でバーゲンセールが起きたときのような期間限定の影響はMAモデルが向いている。<大手ブログのネタにされて突然アクセス数が増えたがネタとして消費されただけの場合>
  • 偶然立ちよった人のうち半分がまた来てくれるようなショックが残存していく場合、ARモデルが向いている。<偶然サイトに辿りついた人の一部がRSSを購読するようになり常連読者が少しずつ増えていくような場合>

MA(∞)ならARモデルを表現できるが、ARモデルの方が説明変数を節約できる。遠い過去まで含むMAモデルが、ごく単純なARモデルと同じという性質は一定条件のもとではその正反対AR(∞)をMAで表現することができる。

実用性の高いARMAモデル

ARモデルとMAモデルをくっつけたのがARMAモデルである

ARMA(1,1)モデルの例:今期の値=10+6*前期の値-0.5*前期のショック+今期のショック

簡単な式だが、とても複雑な動きを再現できる。

説明変数の数を増やせばいくらでも決定係数を高くすることができるが、データ不足への対応として説明変数の節約が必要だったという点を思い出そう。実用的にはARMA(2,2),ARMA(3,2)程度の次数で予想モデルを推計することが多い。(普通は情報量基準というものを使って次数を決定する)

予想値と実際値の差を今期のショックと考えて、次期を予測する。標準偏差2個分の余裕をみておくといい。

時系列解析では、ある時のショックが長く影響を及ぼす。そのため遠い将来の予測はかなり不正確になる。









**