「わかりやすい統計学」 松原望;8,質的変数

名義尺度ー賛否、性別、学歴、階層、購買行動

賛成、反対、男性、女性、大卒、中卒、高卒、ホワイトカラー、ブルーカラー、購入した、購入しない、……などは量的ではない質的概念であるが、このようなものも名義上の尺度として扱うことができる。そのとき、賛否、性別、学歴、階層、購買行動を表す質的変数だと言える。

2つの質的変数によって度数を二重に分類して表で表現したものを二重クロス表という。二重クロス表は親しみやすく情報に富み、常識的に読めるが、落し穴もある。

シンプソンの逆説

二種類の治療法、余病の有無、予後について2 * 2 * 2の三重クロス表を作った結果、次のようになったとしよう。

余病あり余病なし
従来新規従来新規
死亡950900050005
回復501000500095

  • 余病が有りの場合、従来の治療法での回復率は5%だったのが、新規の治療法では10%になっている。
  • 余病が無しの場合、従来の治療法での回復率は50%だったのが、新規の治療法では95%になっている。

どちらの場合でも回復率は2倍になっているので、新規治療法は有利にみえる。

しかし、さきほどのクロス表から余病の有無を消してみよう。

従来新規
死亡59509005
回復50501095

従来の治療法では45%だったのが、新規の治療法では11%になってしまう。

このようにカテゴリーの決め方で同じデータから別の結論が出てしまう。