こんばんは。
今回は、統計的仮説検定の中でも超定番であるt検定について書きます。
「あしびきの……」を彷彿とさせるタイトルですね。
準一級の試験日が近いので、統計的仮説検定とは何かとか、Z検定(分散既知の正規分布の平均値の検定)などは飛ばします。それが分かっている前提で。
検定の基礎が分からないという人はハンバーガー統計学というウェブサイトをおすすめします。
t検定には一群の検定と二群の検定があります。
一群の検定は、「平均値がμ_0である」という帰無仮説の下で、n個の観測データx_iに対して定義される
という統計量tを用いて検定するものです。ただし、 はxの平均値、Vはxの不偏分散(偏差の二乗和をn-1で割ったもの)です。
従って、両側検定なら自由度n-1のt分布の両側100α%点との内外の比較を行えばよいのです(片側検定なら片側100α%点との比較。αは有意水準)。
nが大きいとき(だいたい30以上)なら標準正規分布で近似できます。
また、「対応のあるt検定」というものがありますが、これは「薬を投与する前後での血圧の変化」とか、同じサンプルに対して二つの値(多くは時間的前後)を取った時に、平均値に変化があるかという話ですが、これは「変化量=後 ー 前」を観測値として、それが平均値0かどうか(0より大きい・小さいか)を見ればいいので、一群のt検定と同じになります。
二群の検定の場合は、色々パターンがあります。
目的は、確率変数X1, X2の「平均値が同じかどうか」あるいは「X1の平均値がX2の平均値よりも大きい(あるいは小さい)かどうか」を検定することですが、
1.2つの分散が等しいことは分かっている場合
2.2つの分散が異なるかもしれないし場合
の2パターンによって手法が変わります。
ちなみに、分散が既知の場合はt検定ではなくZ検定になって、「平均値が等しい」という帰無仮説の下で
が標準正規分布N(0,1)に従うことを利用して検定できます。
さて、1.の等分散の場合、
で定義されるt統計量が自由度(n1+n2-2)のt分布に従うことから、一群のt検定と同様に議論ができます。ただし、Vは、X1とX2の不偏分散V1とV2に対して
で定義される、全体の不偏分散です。分子はX1とX2の偏差二乗和の和になっています。分母は総自由度。不偏分散の自由度重みによる加重平均とも解釈できます。
これは覚えられそうです。というか統計検定準一級受けるなら覚えないといけませんね。
この分散を「プールした分散」と呼びます。不偏分散の、自由度(n-1)による加重平均。
統計検定準一級の例題にもありますね。「分散が等しいと仮定できる場合」の話です。
さて、2.の異分散の検定ですが、これは難しいので、統計検定一級対応テキストにも「本書の程度を超える」として省略されています。準一級じゃなくて一級ですよ。
なのに、準一級の例題集にはこれが出てきます(問8)。なんででしょう。
異分散の場合に「平均値が等しい」という仮説を検定する問題は「ベーレンス=フィッシャー問題」と呼ばれており、正確な信頼区間は求められないことが分かっているそうですが、近似的な解法として、「ウェルチのt検定」が存在します。
ウェルチのt検定は、
で定義されるt統計量が自由度fのt分布に従うとして検定します。
ただし、自由度fは
に最も近い整数値です。なんだこれは。
準一級例題集問8にもあるように、異分散かもしれない2つの確率変数から「同じ数」サンプリングすると、n1=n2=nとして、
となります。一方、等分散の場合、プールした分散はn1=n2=nのとき
となるので、この場合の等分散のt統計量は
となり、異分散のt統計量と一致します。
一方、自由度は異分散で
となり、等分散で2n-2となり、計算すると必ず 2n-2≧f となるそうです。(V1,V2≧0を利用して、引き算して通分して展開とか分解とかすればいけそうですがやりたくないです)
異分散の方が自由度が低いということは、異分散の方がばらつきが大きく、精度よく推定・検定できないということです。まあ、そりゃそうですかね。等分散の仮定を置ける方が推定・検定しやすそうです。
ということで、以上、t検定のお話でした。t分布の性質とかもいつか書きたいね。