こんばんは。
本日は、幾何分布の特徴について書きます。
特徴というのは、定義、確率関数、母関数、期待値、分散、その他の性質、他の分布との関係、あたりですかね。
なぜ幾何分布なのかと言うと、様々な分布の関係を論じるときに、手前の方にあるからです(スタート地点はベルヌーイ分布)。
それと、大学の試験で出たからです。試験問題は解けましたが、一応、復習として。
では、書いていきます。
幾何分布の二つの定義
幾何分布には、定義が二つあります。面倒ですね。
一つの定義(定義Aとする)は、「確率pで成功するベルヌーイ試行を繰り返し行ったとき、最初に成功するまでの試行回数の分布」です。Geometry(幾何)の頭文字を取ってG(p)などと書きます。もちろん0≦p≦1です(0<p<1で考えた方が楽です)。
幾何分布は離散分布ですが、この定義では1以上の整数値をとります。ただし、p=0のときは、+∞になります(成功しないので、永遠に失敗し続けます)。
ベルヌーイ試行とは、一定確率pで成功し、確率1-pで失敗するような一回チャンスのチャレンジのことですね。歪んだコインを投げるような感じです。
例えば、6が出るまでサイコロを振った時に、最初に6が出るまでにサイコロを振った回数(6が出た回を含む)をXとすると、確率変数XはG(1/6)に従います。
出た目が「1 4 2 2 6」の場合、X=5となります。
これが直観的に素直な定義です。
もう一つの定義(定義Bとする)は、「確率pで成功するベルヌーイ試行を繰り返し行ったとき、最初に成功するまでに失敗した回数の分布」です。記号は同じくG(p)。
この定義では0以上の整数値をとります。ただし、p=0のときは+∞。
上の例と同じく6の目が出るまでサイコロを振り続けた場合の、「6以外が出た回数」は、定義BのG(p)に従います。
出た目が「1 4 2 2 6」の場合、X=4となります。
Bの定義は、失敗回数に注目する場合に使えますね。例えば、ゲームの残機が気になる場合とか。
私は直観的に素直な定義Aが好きなのですが、計算は定義Bの方が楽です。
また、定義Aの分布は、定義Bの分布を右に1ずらしただけなので、定義Bの計算で得られた結果をそのまま利用できます。
ということで、計算は定義Bを中心に行い、意味の解釈は定義Aを中心に行います。
確率関数と確率母関数・期待値・分散
確率pのベルヌーイ試行を繰り返し、最初に成功するまでの失敗回数を確率変数Xとすると、Xは定義BのG(p)に従います。
X=xとなるには、最初からx回連続で失敗して、次に成功する必要があるので、確率関数は
となります(定義Aだと、x-1回失敗するので、右辺のxがx-1になります)。二項分布みたいな並べ替えが無いので簡単ですね。
確率母関数g(t)は
となります(母関数の記号を小文字のgにしているのは、幾何分布の記号G(p)と混同しないためにです)。
最後で、等比級数の公式と、0<p<1 かつ |t|≦1 のとき x→+∞ で {(1-p)t}^x→0 となることを利用しました(面倒なのでp=0,1の場合は無視していますが、一応大丈夫です)。
従って、
より、
さらに
より、
となります。
今考えていたのは、定義Bの幾何分布に従う確率変数X(成功回はカウントしない)の平均と分散でした。ここで、成功回もカウントした確率変数Y(定義Aの幾何分布に従う)を考えると、Y=X+1 であり、その平均と分散は、
となります。
定義Aでの期待値が1/pであることを覚えておいてください。
ちなみに、定義Aの幾何分布の期待値・分散を求めようとすると、微分の計算が面倒になります(総和が1から始まるので、分母にもtが残るので面倒な形になります)。
では、特別な性質「無記憶性」について解説します。
運は貯まらない?
幾何分布は、以下で定義される「無記憶性」を持つ分布です。
これはつまり、「最初からs回失敗した場合に、さらにt回失敗する確率」が「最初からt回失敗する確率」に等しい、ということです。言い換えると、「s回連続で失敗した、という情報は、今後の成功・失敗に影響を与えない」ということです。
例えば、スマホゲームのガチャに関して、「100回連続でSSRが出なかったのだから、そろそろ出るはず」という考えは間違いだということです。「100回連続失敗したときに、さらに100回失敗する確率」と「最初から100回連続失敗する確率」は全く同じなのです(ガチャの仕様によっては、引いた回数に応じて確率を変動させている場合もあります。SB69のイベントガチャがそうでしたっけ)。
定義Aの幾何分布の期待値が1/pなので、「5%の確率で当たるクジ」が当たるまでに引く回数の期待値は20回ですが、「15回引いて全部ハズレだった。ということは、あと5回ぐらいで当たるはずだ」という考えは間違いです。「15回引いて全部ハズレでも、当たるまでにさらにクジを引く回数の期待値は20回」です。残念ながら。
そういう意味で、"統計学的には"「運は貯まらない」のです。
途中時点での「今後の分布」がそれまでの情報に依存しないので、過去の結果を記憶しないという意味で「無記憶性」と言います。
この「無記憶性」を持つ分布は、離散型では幾何分布、連続型では指数分布のみです。
指数分布は幾何分布を連続に拡張したものですからね。
次に、幾何分布が関係する具体的な話を考察してみます。
デレステの特技Lv強化
「アイドルマスターシンデレラガールズ スターライトステージ」略して「デレステ」というスマホゲームがあります。リズムゲームです。現在イベント中ですね。
このゲームでは、アイドルが持っている特技(スキル)のレベルを、他のアイドルやアイテムとの合成で強化できるという機能があります。
そのとき、合成するアイドル・アイテムの枚数で「成功率」が変化します。
例えば、レア度SSRのアイドルの特技レベルが1のとき、そのアイドルに他のRアイドルを1枚合成すると、特技レベルアップ確率は10%です。2枚合成すると20%です。
成功しても失敗しても、合成したアイドルやアイテムは消えてしまいます。
レベルアップ確率は、合成枚数に完全に比例し、上の例なら成功率は10×枚数%になります。
そこで、「n枚のアイテムを支払うと成功率n×pになる特技レベルアップ合成を、レベルアップが成功するまで行う」というチャレンジにおいて、「消費アイテム数(の期待値)が最も少なくなるような『一回の合成で使うアイテム数 n 』はいくらか」という問いを考えます。pは、合成されるアイドルのレア度、合成するアイドル・アイテムのレア度、元の特技レベル、によって決まります。
この試行において、「成功するまでにかかる合成回数 X 」は、定義Aの幾何分布G(np)に従います。
また、n枚のアイテムを消費する合成をX回行うので、「最終消費アイテム数」は Y=nX となります。
従って、その期待値は、X~G(np)より、
となります。
期待値が n に依存していないので、「最終消費アイテム数の期待値は、一回に使うアイテム数がいくらであっても変わらない」ということになります。
つまり、n枚消費すれば成功確率が10n%になるような場合、10枚使えば必ず成功しますが、10枚も消費してしまいます。一方、1枚だけで行えば、一回の消費は1枚で済みますが、成功確率が10%なので、成功するまでだいたい10回ぐらいかかってしまいます。どっちが得ということもない。
ただし、分散は変わります。
当たり前ですが、n=1/p枚使用すれば、成功率はnp=1になるので、「必ず1回で成功」ということになり、試行回数の分散は0になります。
それ以外の場合、nが増えるにしたがって分散は小さくなります。
従って、枚数戦略は損得ではなく「ハイリスクハイリターンか、ローリスクローリターンか」という選択になります。長い目で見ればどっちも同じ。
「1回で成功するかも」という気持ちで、毎回1枚で合成を行えば、1枚で成功する場合もあれば20枚以上消費してしまう場合もあります。ハイリスクハイリターン。
一方、堅実に「成功率が100%になるような枚数で合成を行う」という戦略なら、得はしませんが損もしません。ローリスクローリターン(というかノーリスクノーリターン)。ただし、端数が出て微妙に損する場合があります(1枚あたり8%のときに、13枚消費する場合、8*13=104となり100%成功しますが、1枚ずつで行えば消費枚数の期待値は12.5枚)。
ちなみに私は後者の堅実戦略を取っています。無駄にしたくないので。
ということで、幾何分布の色々な性質についてでした。
幾何分布は日常生活でよく目にするので良いですね。
ちなみに、期待値と分散の計算は確率母関数ではなく積率母関数を使用しても計算できますが、面倒なので省略してみました。計算練習がしたい方はやってみてください。
幾何分布について書いたので、負の二項分布や指数分布についても書けますね。そこからガンマ分布やワイブル分布にも行けます。夢がひろがりんぐ。
では、今日はこの辺で。