「考える技術としての統計学」 飯田泰之 4
回帰分析のプロセス
- 理論的仮説や経験から、説明される変数とそれを説明する変数のあたりをつける
- できる限り多くのサンプルを収集する
- 説明変数によって被説明変数の説明を試みる
- 回帰係数は、ある説明変数の値が1増えたときの被説明変数の平均変化量を表すと解釈する
- 回帰係数が偶然による値ではないことをt値からたしかめる
- 回帰式を使った95%の確率での予想はプラスマイナス標準誤差2個分の誤差があり得ることに留意する。
- 決定係数[tex
- R^2]:実際のデータの組が回帰式で何割くらい表現できているかを示している。回帰式通りに全てのデータがならんでいれば1、まったく説明できていなければ0となる。:
t値が2以上なら母集団の定数や回帰係数が0である確率は5%未満。
母集団の回帰係数の値が0(説明変数と被説明変数は関係ない)である確率がp値。
回帰分析の有効利用へ
回帰分析が表現しているのは因果関係ではなく相関関係。
AとBの間に相関関係があったとしても
A が B を発生させる
B が A を発生させる
第3の変数C が A と B を発生させる (この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)
wikipedia:相関係数
という三種類がありえる。
因果関係をみつけるために
仮説演繹法のために使う「AによってBが引き起こされる」という仮説の妥当性を判断する
- アブダクションの準備として使う「これらの回帰式に示されるような相関関係を生み出す因果は何か?」と考える
平均から受け継いだ注意点
外れ値があると、回帰係数は大きくかわってしまう。散布図を描いてから回帰分析をする、一部を捨ててから回帰分析するなどが重要。
外れ値を有効利用する
外れ値問題や予測の誤りは回帰分析の欠点として言及される場合があるが、「外れ値」に働く因果関係を探すことでメリットがある場合も。(環境変化に気がつく等)