クロス集計表とカイ二乗検定・リスク比・オッズ比

シェアする

  • このエントリーをはてなブックマークに追加

こんばんは。最近は中間テストや実験レポート作成などで忙しいのでなかなか記事を書く時間を確保できません。

さて、今日はクロス集計表の分析を扱います。

クロス集計表(あるいは分割表)というのは、

疾病あり 疾病なし 合計
曝露あり a b a+b
曝露なし c d c+d
合計 a+c b+d N

というような、n×mの表で表されているものです(上図は2×2です)。a,b,c,dには該当データの個数(人数など)を書き、合計の欄にはその行・列の合計を、右下には観測データ数(N=a+b+c+d)を書きます。

この表を用いて、「疾病と曝露には関係があるか」を考えます。ちなみに曝露とは、その条件にさらすこと、という意味で、例えば「煙草を吸っている」とか「紫外線の照射を受けている(動物実験など)」というような条件です(専門外なのでおかしいこと言ってるかもしれません)。

期待度数からのズレを測る

さて、ここにとある資格試験の参考書があります。

その参考書の帯には「合格者の8割が使っている」と書いてあります。

この参考書は、良い参考書でしょうか?

答えは、「その情報だけじゃ分からん」です。

ちなみにこれは少し前に「ビーバップ・ハイヒール」というテレビ番組で扱われていた話です。

「不合格者の8割もその参考書を使っていたらどうなの?」という話です。

では、どのように判断すればいいのでしょうか。

大事なのは、「その参考書で合格率が上がるのか」であり、「その参考書を使った人と使わなかった人の合格率が(偶然以上のレベルで)異なるのか」です。

そこで登場するのが「クロス集計表」です。

今、その資格試験の受験者をたくさん集めて、参考書の使用・不使用と合格・不合格を調査して(実際やるのは困難です。特に不合格者のデータ集め)、以下のデータが集められたとします。

合格 不合格 合計
使用 46 24 70
不使用 14 16 30
合計 60 40 100

このとき、参考書不使用者の合格率は47%、使用者の合格率は65%です。全体の合格率は60%。全受検者の70%が使用しており、合格者の使用率は76.7%です(四捨五入すると8割)。

不使用者に比べて使用者の合格率が高くなっていますが、これは偶然によるものなのでしょうか。

ここで登場するのがカイ二乗統計量です。

まず、使用者数や合格者数などの合計の情報はそのままで、もし使用と合格に全く関係が無かったらどうなるか、という表を作成します。

使用と合格に全く関係が無かったら、使用者の合格率と不使用者の合格率はともに60%になるはずなので、以下の表が作成できます。

合格 不合格 合計
使用 42 28 70
不使用 18 12 30
合計 60 40 100

使用者の75人、不使用者の25人をそれぞれ6:4の比率で振り分けています。

このとき、合格者の使用率と不合格者の使用率もちゃんと75%になっていることを意識しましょう。

この表の数字を「期待度数」と言います。「無関係」という帰無仮説における「度数の期待値」です。

さて、2つの表を用いて、観測データの「期待度数からのズレ」を計算します。

(観測度数ー期待度数)^2 だと、期待度数が大きいほど大きい値が出やすくなるので、これを期待度数で割ってやった値を全て足します。

(Oは観測度数、Eは期待度数)

この値はカイ二乗統計量と呼ばれており、近似的に、自由度(n-1)*(m-1)のカイ二乗分布に従います。

(ただし、あくまで近似です。近似の精度を良くするための「イェーツの補正」というものがあります。)

今回の場合で計算すると、χ^2=3.17 となります。

自由度 (2-1)*(2-1)=1 のカイ二乗分布の上側5%点の値は3.84なので、この観測結果は、5%有意で棄却することはできません。10%有意ではあります。

したがって、この参考書が良い(合格率を上げる効果がある)とは、あまり強く言えないんですね。

ここで、観測データ数を2倍したらどうなるでしょうか。

もし、今回得られた表の各度数が全部2倍になるような表が得られたら、観測度数も期待度数も2倍になります。

そのとき、χ^2の分母が2倍されて分子が4倍されるので、χ^2は2倍されます。

少しの偏りであっても、「大量に抽出してもずっと少しの偏りが出ている」となれば有意になるんですね。

従って、有意なデータを提示したければたくさんデータを集めましょう、という平凡な結論に至ります。

注意が必要なのは、カイ二乗検定はクロス集計表のみに使える検定ではないということです。

「観測結果がこの分布に従っているかどうか」など、分布の一致性を検定したいときにも使えます(従っているという帰無仮説の下で期待度数を計算すると、同じ検定ができます。自由度の計算に注意)。

すなわち、カイ二乗検定はノンパラメトリックな適合度検定と言えます(ノンパラメトリックの意味はググってください)。

たとえば、一カ月に平均3回起こる出来事について、毎月集計を取って、「パラメータλ=3のポアソン分布に従っているかどうか」などを検定することができます。このとき、パラメータの推定値を、データの平均などを用いて算出した時、自由度がさらに1減ります。(統計検定準一級例題集)

クロス集計表とリスク比・オッズ比

クロス集計表

疾病あり 疾病無し
曝露あり a b
曝露なし c d

に対して、「曝露ありの疾病リスク」を「a/(a+b)」で定義します。例えば「喫煙者が不整脈を発症する割合」がリスクですね。

さらに、「曝露なしの疾病リスク」を「c/(c+d)」として、もし「曝露ありの疾病リスク>曝露なしの疾病リスク」となれば、「曝露が疾病に影響を与える」と考えることができます(実際は隠れた変数などに気を付ける必要があります)。

そこで、「リスク比RR(Risk Ratio)」を以下で定義します。

このリスク比が1を十分超えていれば、「曝露によって疾病リスクが上がる」と解釈できそうです。正確には、曝露によってリスクがRR倍になります。

一方、リスク比が1を十分下回れば(0に近ければ)「曝露によって疾病リスクが下がる」と考えられます。このときは、曝露ありと曝露なしを入れ替えて、「曝露されないことによって疾病リスクが上がる(そのときのRR倍)」と解釈できます。そのときのRRは元のRRの逆数です。(曝露が運動あり・なしだとそうなりそう)

「よくお酒を飲む人はお酒を飲まない人に比べて喉頭がんのリスクが○倍!」みたいな話ですね。

ここで注意しないといけないのは、これは「前向き研究」でしか使えないということです。

前向き研究とは、「現在疾病を発症していない人を集めて、その後の経過を観察する」というような研究です。調査したい要因(飲酒・喫煙・運動・食生活など)についてのアンケートや逐次報告を受けて、1年後などに、疾病を発症したかを調査する、というようなものです。

このとき、そもそも発症が珍しい疾病であれば、リスクが「曝露ありで0.08、曝露なしで0.04」のような結果になり、リスク比は2倍(ただし4%が8%になる程度)というような結果になります。

とは言っても、リスク比には「リスクが二倍になる」という意味があります。

次に、オッズ比を見ましょう。

同じクロス集計表

疾病あり 疾病なし
曝露あり a b
曝露なし c d

に対して、「曝露の有無に関する、疾病発症オッズ」は「a/c」で定義されます。同様に「曝露の有無に関する、疾病非発症オッズ」は「b/d」で定義されます。

この比を「オッズ比OR(Odds Ratio)」を呼びます。

これは、「曝露の有無と疾病の有無に関係があるか」を測る指標で、リスク比と同様に、無関係なら1に近づきます。

ちなみに、「疾病の有無に関する曝露オッズ」などで見ても、

OR=(a/b)/(c/d)=ad/bc

となり、結果は同じになります(オッズ比の対称性)。リスク比では対称性は成り立ちません。

しかし、「オッズ」という概念が理解しにくいので、「オッズが○倍」と言われてもイマイチピンときません。

ですが、リスク比が適用できない「後ろ向き研究」に対して適用できるというメリットがあります。

また、疾病の有無と複数の要因の有無を見たいとき、「要因Aと疾病のクロス集計表」「要因Bと疾病のクロス集計表」……などを作成し、影響力の大きい順を見たいわけですが、リスク比とオッズ比は順位が一致するという性質があります。さらに、疾病がまれにしか発症しないときは、オッズ比とリスク比の値は近くなります(統計検定一級対応テキストp263)。

後ろ向き研究とは、「疾病のある人」と「疾病のない人」を200人ずつ集めて、それまでの生活などについてアンケートを取るというようなものです。過去について調査するので後ろ向き研究。

このとき、例えば以下の表が得られたとします。

疾病あり 疾病なし 合計
曝露あり 120 90 210
曝露なし 80 110 190
合計 200 200 400

このとき、「曝露ありの疾病リスクは120/210=約57%」と言うことはできません。リスクは、「疾病ありの人と疾病なしの人をどれだけの割合で抽出するか」に依存するからです。非常にまれな疾病でも、本気で患者200人に調査して、適当に集めた健康な人200人に対して調査すれば、リスクが50%近くになってしまいます。

リスクが意味を持たないのですから、リスク比を扱うのはおかしいです。

ですが、オッズ比は「要因間の関係を見る」というだけなので、この場合にも使うことができます。

2×2集計表の場合、オッズ比はad/bcなので、「曝露が疾病を引き起こす、と言いたい人」にとっての、「自分の主張を支持するデータ」と「否定するデータ」の関係を見るイメージです。

今回の場合、「曝露が疾病を引き起こす」という主張を支持するデータは「曝露あり・疾病あり」と「曝露なし・疾病なし」のデータであり、これを掛け算します(足し算じゃないですよ!)。

さらに、主張を否定するデータである「曝露あり・疾病なし」と「曝露なし・疾病あり」のデータを掛け算して、支持データの積から割って、

OR=(120*110)/(90*80)=1.83

です。1より大きいので関係がありそうです。

しかし、「1より大きいので関係がありそう」というのはなんか不安ですよね。

せっかく統計学なんですから、「95%信頼区間」が知りたいところです。

リスク比・オッズ比の信頼区間

リスク比・オッズ比の対数は正規分布で近似できることが知られています。

このとき、対数リスク比・対数オッズ比は

となります(対数は自然対数ln)。

ここで、さらにそれぞれの分散が

で近似できることも知られています。これを利用すると、対数リスク比と対数オッズ比の95%信頼区間がそれぞれ

で得られます。したがって、リスク比・オッズ比の95%信頼区間は、

となります。

±の前後で指数を分解すると、リスク比・オッズ比の値×exp(±分散の平方根)という形になりますね。

クロス集計表

疾病あり 疾病なし 合計
曝露あり 120 90 210
曝露なし 80 110 190
合計 200 200 400

のオッズ比は1.83でした。

このとき、無関係ならオッズ比は1に近づくので、95%信頼区間の下限が1を下回らなければ(信頼区間に1が含まれないので)、有意に影響があると言えます(無関係、すなわちオッズ比が1であるという状況を95%の自信をもって排除できます)。

すなわち、対数で考えれば、対数オッズ比の下限が負にならなければよいということです。

さて、この表でのオッズ比の標準偏差は

なので、対数オッズ比の下限は、

log 1.83 - 1.96 * 0.203 = 0.604 - 0.398 = 0.206 > 0

となるので、オッズ比の95%信頼区間は1を含みません。

オッズ比の95%信頼区間は (1.23, 2.72) となります。

したがって、この集計表において、曝露と疾病には正の相関があると言えます。

ちなみにこのとき、カイ二乗値は9.02となり、明らかに有意です。

ただし、カイ二乗値では「無関係としたときの状態からどれだけ外れているか」を知ることができますが、「正の相関か、負の相関か」は分かりません。

その意味で、オッズ比の方が情報を多く持っていると言えます。

また、前述したように、オッズ比をそのまま解釈するのは難しいので、その意味では、「リスクが○倍」と解釈できるリスク比の方が有益です。ですが、前述の通り、リスクが定義できない後ろ向き研究などではリスク比の意味が分かりません。

以上が、クロス集計表の分析です。

まとめると、

カイ二乗検定は、クロス集計表以外にも使える一般的な適合度検定。相関の向きは分からない。

リスク比は文字通りリスクの比であり解釈が容易。対称性は持たない。後ろ向き研究では使えない。相関の向きが分かる。

オッズ比は解釈が困難であるものの、対称性を持ち後ろ向き研究でも使えるという良い性質を持つ。相関の向きが分かる。

という感じです。

以上。

スポンサーリンク
レクタングル(大)
レクタングル(大)

シェアする

  • このエントリーをはてなブックマークに追加

フォローする