「考える技術としての統計学」 飯田泰之 4

回帰分析のプロセス

  1. 理論的仮説や経験から、説明される変数とそれを説明する変数のあたりをつける
  2. できる限り多くのサンプルを収集する
  3. 説明変数によって被説明変数の説明を試みる
  4. 回帰係数は、ある説明変数の値が1増えたときの被説明変数の平均変化量を表すと解釈する
  5. 回帰係数が偶然による値ではないことをt値からたしかめる
  6. 回帰式を使った95%の確率での予想はプラスマイナス標準誤差2個分の誤差があり得ることに留意する。
決定係数[tex
R^2]:実際のデータの組が回帰式で何割くらい表現できているかを示している。回帰式通りに全てのデータがならんでいれば1、まったく説明できていなければ0となる。:

t値が2以上なら母集団の定数や回帰係数が0である確率は5%未満。
母集団の回帰係数の値が0(説明変数と被説明変数は関係ない)である確率がp値。

検定の落し穴

常連客が客を増やしているかを知りたいとき

来店者総数=21+0.88*常連客 (t値は6.51 3.21)

という回帰式のt値は意味がない。
t値は「係数の統計量と0とがどのくらい離れているか」を表している。
つまり「帰無仮説:係数が0」に関する仮説検定。
ここで知りたいのは「係数が1を有意に下回るか」なので「帰無仮説:係数が1」に対しして検定を行わなければならない。

定義式に対して検定を行っている例もあるが意味がない。

回帰分析の有効利用へ

回帰分析が表現しているのは因果関係ではなく相関関係。
AとBの間に相関関係があったとしても

A が B を発生させる
B が A を発生させる
第3の変数C が A と B を発生させる (この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)
wikipedia:相関係数

という三種類がありえる。

因果関係をみつけるために

  • 仮説演繹法のために使う「AによってBが引き起こされる」という仮説の妥当性を判断する
  • アブダクションの準備として使う「これらの回帰式に示されるような相関関係を生み出す因果は何か?」と考える

平均から受け継いだ注意点

外れ値があると、回帰係数は大きくかわってしまう。散布図を描いてから回帰分析をする、一部を捨ててから回帰分析するなどが重要。

外れ値を有効利用する

外れ値問題や予測の誤りは回帰分析の欠点として言及される場合があるが、「外れ値」に働く因果関係を探すことでメリットがある場合も。(環境変化に気がつく等)