「考える技術としての統計学」飯田泰之 4

決定係数[tex: R^2]:実際のデータの組が回帰式で何割くらい表現できているかを示している。回帰式通りに全てのデータがならんでいれば1、まったく説明できていなければ0となる。:

t値が2以上なら母集団の定数や回帰係数が0である確率は5%未満。
母集団の回帰係数の値が0(説明変数と被説明変数は関係ない)である確率がp値。

常連客が客を増やしているかを知りたいとき

来店者総数=21+0.88*常連客 (t値は6.51 3.21)

という回帰式のt値は意味がない。
t値は「係数の統計量と0とがどのくらい離れているか」を表している。
つまり「帰無仮説:係数が0」に関する仮説検定。
ここで知りたいのは「係数が1を有意に下回るか」なので「帰無仮説：係数が1」に対しして検定を行わなければならない。

定義式に対して検定を行っている例もあるが意味がない。

回帰分析が表現しているのは因果関係ではなく相関関係。
AとBの間に相関関係があったとしても

A が B を発生させる
B が A を発生させる
第3の変数C が A と B を発生させる（この場合、AとBの間に因果関係はなく擬似相関と呼ばれる）
wikipedia:相関係数

という三種類がありえる。

外れ値があると、回帰係数は大きくかわってしまう。散布図を描いてから回帰分析をする、一部を捨ててから回帰分析するなどが重要。

外れ値問題や予測の誤りは回帰分析の欠点として言及される場合があるが、「外れ値」に働く因果関係を探すことでメリットがある場合も。(環境変化に気がつく等)