「考える技術としての統計学」 飯田泰之 2

サンプルの数を増やせば、サンプルの平均は母集団の平均に近づいていく。(大数の法則)

サンプルの数を「どのくらい増やせば」、サンプルの平均は「どのくらい」母集団の平均に近づいていくのか。(中心極限定理)

誤差
サンプルの代表値と母集団の代表値:
中心極限定理
母集団がいかなる分布をしているとしても、サンプルの平均値は母平均を中心にした正規分布という特定の分布に従う。サンプル調査の平均値の分散は、母集団のサンプル数分の1になる。:

ある程度のサンプル数があればなりたつ。

目で見る中心極限定理


「サイコロをx^2回投げたときの平均」を10000回計算してグラフにしたもの。(統計処理言語Rで作成)

(1と2の時はそうなってない.)

予測

母集団の平均値(μ)はわからないが標準偏差(σ)はわかっている場合。

μは、サンプルの平均値から2σ√サンプル数のなかにある。これを95%予言的中区間と言う。

母集団についての分布、平均、標準偏差の、どれもまったくわかっていない場合。(ただしサンプル数は多い)

サンプルの分散はデータ数nではなく(n-1)で割る。サンプル平均から標準偏差を計算するときは、自由度の減少が起きる.<意味不明>
サンプル数が多いときはサンプルの標準偏差が母集団の標準偏差の推定値として利用できる。あとは一緒。

データ数が足りないとき。

母集団が正規分布だと仮定すると……
サンプル数が少いときは、サンプル平均の分布はt分布になる。
サンプル平均から2.57*サンプル標準偏差/√自由度に母平均は95%基準で存在する。

母集団が正規分布だと仮定できない場合……
チェビシェフの不等式を使う。
サンプル平均と母集団の平均の差が、標準偏差*kの以内に収まる確率は1-1/k^2である。(母集団の標準偏差がわからない場合、サンプルの標準偏差を使う)

95%基準で考えると、サンプル平均から4.5*標準偏差以内に母平均はある。<この考えだとサンプル数が増えても関係が無いのに違和感がある。>