ポアソン分布の最尤推定量と有効性

シェアする

  • このエントリーをはてなブックマークに追加

こんばんは、少し久しぶりの投稿です。

数日前に統計検定のWeb合格発表があり、私は準一級に合格することができました。

私が統計関係で次に合格すべきは大学の期末試験です。

ということで、今回は自分の頭の整理も兼ねて、ポアソン分布の最尤推定量の有効性について書いてみます。

問.ポアソン分布Po(λ)のパラメータλの最尤推定量を求めよ。また、求めた最尤推定量が有効推定量であることを確かめよ。

ポアソン分布とは

ポアソン分布とは、「一定時間内に平均λ回起こる出来事が、一定時間内にx回起こる確率」の分布です。λは正の実数です。

例えば、「一カ月に交通事故が平均10件起こる地域で、来月に交通事故がx回起こる確率」などがλ=10のポアソン分布に従います。

ポアソン分布は以下の確率関数を持ちます。

X~Po(λ)などと表現されます。パラメータはλの一つ。

上の説明から明らかなように平均はλなのですが、分散もλになります。覚えやすいですね。

ポアソン分布は二項分布を派生させて得ることができますが、それはまた別の話。

今回は、ポアソン分布から独立な値をn個取り出し、サイズnの標本から、このパラメータλを推定します。

例えば、ある地域における、ある6カ月間の事故件数がそれぞれの月に「6, 10, 9, 15, 13, 8(件)」だとして、一カ月間の事故件数がポアソン分布に従うとしたら、パラメータλはどんな値でしょうか? 上で説明したポアソン分布の概念を考えればすぐに分かるかも。

最尤推定量とは

パラメータθを持つ確率関数(もしくは確率密度関数)f(x|θ)を、「xが決まったときの、θの条件付き分布」と考えたものを、尤度関数と言います。つまり、尤度関数をL(θ|x)とすると、

です。fはxの関数、Lはθの関数です。

結果xが与えられたときに、尤度関数の値を最も大きくするパラメータθの値を、θの最尤推定量と言います。

「尤度」とは、「尤もらしさ(もっともらしさ)」という意味であり、「最尤推定量」とは「最も尤もらしい推定量」となります。ダジャレみたいですね。

例えば、コインを4回投げて表が1回出た場合、表が出る確率の最尤推定量は1/4になります。

サイコロを一回投げて2が出た場合、サイコロの状態の最尤推定量は「全部の目が2」です。なんかアホみたいですね。

このように、「結果から考えて、こういうパラメータだと考えるのが一番妥当だよね」というのが尤度です。

ちなみに尤度関数は全区間積分しても1になるとは限りません。

ポアソン分布の最尤推定量を求めます。

ポアソン分布Po(λ)から独立にn個の値X_iを取り出したとき、その確率変数ベクトル(X_1, X_2,...,X_n)の同時確率関数は、

となります。したがって、尤度関数L(λ|x_1,...,x_n)も上と同じ関数になります。

ここで、最大値を求めるために、上の関数を最大化するλの値を計算するのですが、そのまま計算するのは大変なので、今回は「対数尤度関数」を用います。

対数尤度関数とは、尤度関数の対数を取ったものであり、対数尤度関数を最大化するパラメータの値は、尤度関数も最大化します(対数関数が単調増加なので)。対数尤度関数は小文字のl(エル)を用いてl(θ|x)と表記されることがあります。

ポアソン分布のパラメータλの対数尤度関数は

となり、これを最大化するλの値は、dl/dλ=0より、

となります。ハット記号は、推定量であるという意味です。

パラメータλの最尤推定量は、標本平均になりましたね。これは、ポアソン分布の概念から明らかなような気もします。(6カ月の事故件数データからパラメータλを推定するなら、6つの値の平均を用いれば良いのです。だって、λは1カ月あたりに起こる平均事故件数なんですから)

また、ここから、この最尤推定量は不偏推定量であることも分かりますね。分からない場合は、不偏推定量について復習しましょう。

それでは、この最尤推定量が「有効推定量」かどうかを確認しましょう。

有効推定量とは

パラメータの推定量には様々なものがありますが、基本的には標本抽出は一度しか行わないので、一発で真のパラメータに近い値が出てくれる方がありがたいですね。

そこで、「真の値からのズレができる限り小さくなる推定量」を考えたいのですが、「真の値との差の期待値」は不偏推定量なら必ず0になりますね。プラス方向のズレとマイナス方向のズレが相殺するイメージです。

ということで、「真の値からのズレの二乗の期待値ができる限り小さくなる推定量」を考えます。平均二乗誤差ですね。これなら相殺が起こりません。

ただし、「どんな標本が来ても"3"と答える推定量」は明らかに分散0ですが、こんなんで推定できるわけがないですね。

ということで、不偏推定量に限定して話を進めたいのですが、不偏推定量に限定すると、推定値の平均二乗誤差は、標本Xから得られる推定値をT(X)、真のパラメータをθとすると、E[T(X)]=θより、

となります。これは「分散が小さい推定量」を考えよう、ということです。

ここで、非常に重要な概念として、「クラメール・ラオの不等式」というものがあります。

これは、n個の独立な標本から計算した推定値T_n(x_1,...,x_n)の分散は必ず、標本(X_1,...,X_n)のθに対するフィッシャー情報量(確率変数を一つだけ考えた場合のθのフィッシャー情報量I(θ)のn倍)の逆数より小さくならない、というものです。I(θ)はフィッシャー情報量です。

従って、推定量の分散がフィッシャー情報量の逆数と一致するとき、その推定量は紛れもなく「分散最小の不偏推定量」となります。これを「有効推定量」と言います。

しかし、有効推定量が常に存在するとは限りません。あらゆる推定量に対して、クラメール・ラオの不等式の等号が成立しないというような場合もあります。要注意。

では、フィッシャー情報量とは何なのか、書いていきます。

スコア関数とは

いきなりフィッシャー情報量じゃないのですが、フィッシャー情報量の準備です。

スコア関数とは「対数尤度関数を微分した関数」です。もちろん微分はパラメータでの微分です。VとかsとかScとかの文字で書かれます。

スコア関数をs(θ|x)とすると、

となります。

やや面倒な計算により、スコア関数の期待値が0になることが証明できますが、今回は割愛します。スコア関数の期待値が0になるという事実は覚えておきましょう。

ポアソン分布については、

となります。最尤推定量を求める際に行った計算を、サイズnの標本ではなく1つの確率変数を用いるものに変えるだけですね。(nを1に変えるだけです)

フィッシャー情報量とは

フィッシャー情報量とは「スコア関数の二乗の期待値」です。

つまり、フィッシャー情報量をI_X(θ)は

となります。尤度関数 L(θ|x) は確率(密度)関数 f(x|θ) と全く同じですよ。

従って、ポアソン分布のパラメータλのフィッシャー情報量は

となります。途中、ポアソン分布の期待値と分散がともにλになることを利用しました。

これで必要な物は全て揃いました。有効推定量かどうか調べましょう。

有効性の判定

ポアソン分布Po(λ)のパラメータλの最尤推定量は

でした。標本平均ですね。この分散は

となります。分散の基本的な性質ですね。ポアソン分布の分散がλであることを利用しています。

また、ポアソン分布のパラメータλのフィッシャー情報量は

なので、クラメール・ラオの不等式は以下のようになります。

等号が成立しているので、この最尤推定量は、不偏推定量の分散の下限(クラメール・ラオの下限)を達成しており、有効推定量であることが分かります。

以上、証明終わり。

ふー、疲れた。

調べてたら「有効推定量が存在するとき、最尤推定量は有効推定量と一致する」という話が出てきたのですが、手元の資料を調べてみても、最尤推定量の漸近有効性についてしか言及されていません。本当かなあ。暇があれば証明してみます。

もっと調べて行くと、最尤推定量の漸近的性質やら指数型分布族の対数尤度関数の微分やら、何やら難しそうな話がたくさん見つかります。

統計検定1級受けるなら勉強しないといけないなあ。1級、どうしようかなあ。

それでは、今日はこの辺で。

スポンサーリンク
レクタングル(大)
レクタングル(大)

シェアする

  • このエントリーをはてなブックマークに追加

フォローする