▲「お兄ちゃん、競プロの解説見てたら期待値の話が出てきてよくわかんないんだけど」
■「期待値? ああ、確率 DP みたいな問題だね。競プロには “期待値の線形性” の話なんかも出てくることがあるね」
▲「ネットで調べても確率変数?とかいうのが出てきてよくわかんなかった」
■「確かに、確率変数という概念はちょっと捉えにくいね」
▲「最近は統計学も人気みたいだし、せっかくだから色々教えてよ。お兄ちゃん、統計検定受けてるんだったよね?」
■「うん。統計検定の準一級に合格してるよ。一級にはまだ遠いけどね」
▲「へー。あたしも二級ぐらい挑戦してみようかな」
■「良いんじゃないかな。目標があると勉強しやすいと思うよ」
▲「じゃあ、まず確率変数について教えて!」
公理的確率論
▲「タイトルが難しい!」
■「高校まででは、確率を事象の起こりやすさと解釈する考え方が基本だったけど、大学レベルだと “公理的確率論” という、ちょっと面倒な考え方で確率を定義するみたいなんだ」
▲「意味がわかんないから順を追って説明して!」
標本空間
■「うん。まず、“標本空間” と呼ばれる、何らかの集合があるとしよう。この集合をとりあえず $\Omega$ を書くことにする」
▲「”何らかの” って何?」
■「標本空間が何の集合であるかは本当にどうでもいいんだ。分かりやすい例で言うと、”コイントスの結果の集合” とかね」
▲「$Ω=\{$表$, $裏$\}$ ってこと? 集合の要素は数じゃなくていいの?」
■「うん。要素はなんでもいい。なんなら、無限集合でもいい。” 0 以上 1 以下の実数” でもいいよ」
▲「この標本空間 $\Omega$ の要素が事象?」
事象
■「いや、“事象” は $\Omega$ の部分集合のことを言うんだ」
▲「部分集合が事象?」
■「例えば、サイコロを 1 つ振るとき、標本空間は $\Omega=\{1, 2, 3, 4, 5, 6\}$ と書けるね。ちなみに、今回の話で “サイコロ” と言うときは、6 面サイコロとしよう」
▲「その要素は整数?」
■「いや、面倒だから整数で書いたけど、実際には “サイコロの目” だね。{⚀, ⚁, ⚂, ⚃, ⚄, ⚅}(サイコロの目を表す機種依存文字)ということだね」
▲「それで、事象っていうのは?」
■「例えば “偶数の目が出る” という事象が考えられる。これは、$\Omega$ の部分集合である $\{2, 4, 6\}$ で表現できるよね。これが “事象”」
▲「ふーん。$\Omega$ の部分集合全部が事象になるの?」
■「いや、そうではなくて、$\Omega$ の部分集合のうちいくつかだけを選んで “事象の集合” を作るんだ。これを $\mathcal{F}$ と書く。このとき、$\mathcal{F}$ は $\Omega$ のすべての部分集合を集めたもの(すなわち $2^\Omega$)でなくてもいいんだ」
▲「$\mathcal{F}$ は、集合の集合ってこと?」
■「うん。集合の集合のことを “集合族” と言ったりするね」
▲「じゃあ、サイコロの例だと、$\mathcal{F}=\{\{1, 2, 3\}, \{2, 4, 6\}\}$ とかでもいいってこと?」
■「実はそれはダメなんだ」
▲「なんで?」
■「$\mathcal{F}$ は “完全加法族”($\sigma$-加法族)でなければいけないというルールがあるんだ。ただの集合族ではダメで、いくつかの条件を満たしていないといけないんだ」
▲「それって誰が決めたの?」
■「決めたというか、そのほうが確率論の色々な操作が適用できるということかな? 僕もこのあたりはちゃんと把握できていないんだ」
▲「ふーん。で、完全加法族って何?」
■「以下の条件を満たすとき、$\mathcal{F}$ は $\Omega$ 上の完全加法族であるというよ」
- $\mathcal{F}$ は空でない(少なくとも 1 つの $A\subset\Omega$ が $A\in\mathcal{F}$ を満たす)
- $A\in\mathcal{F}$ ならば $A^c\in\mathcal{F}$($A^c$ は $A$ の補集合 $\Omega\setminus A$のこと)
- $A_1, A_2, A_3, \dots \in\mathcal{F}$ ならば、$A_1\cup A_2\cup A_3\cup\cdots\in\mathcal{F}$($\mathcal{F}$ の要素の可算個の和も $\mathcal{F}$ の要素)
▲「えー、ややこしい」
■「これらの定義から、$A, B\in\mathcal{F}$ ならば $A\cap B\in\mathcal{F}$ であることを証明してみよう」
▲「え、いきなり…… 1. はどうでもよくて、2. は補集合もあるってことで、3. は和集合もあるってことだよね。ここから積集合の話をするんだから…… あ、ド・モルガンの法則?」
■「良いね」
▲「$A\cap B$ の補集合は、$A^c\cup B^c$ で、てことは $A^c, B^c$ があればいいから、うん、大丈夫だね。証明はこんなのでどう?」
$A, B\in\mathcal{F}$ と 定義の 2. より、$A^c,B^c\in\mathcal{F}$ である。
これと定義の 3. より、$A^c\cup B^c\in\mathcal{F}$ である。
ド・モルガンの定理より $A^c\cup B^c=A\cap B$ であるから、 $A\cap B\in\mathcal{F}$ である。
■「完璧だね。じゃあこの調子で、空集合 $\varnothing$ と全体集合 $\Omega$ が $\mathcal{F}$ に属することも証明してみよう」
▲「うーん、さっきと違って取っ掛かりが無いね…… でも、また定義 2. と定義 3. を絡めて使うんだよね」
■「そうだね。今回は、定義 2. から考えるといいかな。あと、一応定義 1. も使うよ」
▲「定義 2. から、$A, A^c\in\mathcal{F}$ だよね。あ、こういう $A$ が 1 つないといけないから、定義 1. があるのか。これと定義 3. を組み合わせると、$A\cup A^c\in\mathcal{F}$ ? あ! $A\cup A^c$ って $\Omega$ だ!」
■「じゃあ、証明は書けるね」
▲「定義 1. の書き方がちょっとむずかしいけど、こう?」
定義 1. より、ある $A\subset\Omega$ について $A\in\mathcal{F}$ である。
そのような $A$ について、定義 2. より $A^c\in\mathcal{F}$ である。
これと定義 3. より、$A\cup A^c\in\mathcal{F}$ である。
$A\cup A^c=\Omega$ より、$\Omega\in\mathcal{F}$ である。
また、$\Omega^c=\varnothing$ であるため、これと定義 2. より、$\varnothing\in\mathcal{F}$ である。
■「文句なしだね。」
■「完全加法族というのは、こういう性質を満たすような、部分集合の集合のことをいう。でも、実際は $\Omega$ の部分集合全体の集合(冪集合)$2^\Omega$ を $\mathcal{F}$ とする場合がほとんどだね。だから今の話は忘れてもいい」
▲「えー! せっかく考えたのに!」
■「この話が役立つのは、$\Omega$ が連続(0 以上 1 以下の実数集合など)のときに、ボレル集合が登場する場合なんだよね」
▲「ボレル集合って?」
■「それは難しいからまたの機会に」
確率
▲「整理すると、標本空間っていう何でもいい集合 $\Omega$ があって、 $\Omega$ の部分集合ほぼ全部の集まり(集合族)$\mathcal{F}$ があるんだよね」
■「うん。コイントスで言うと、$Ω=\{$表$, $裏$\}$、$\mathcal{F}=\{\varnothing,\{$表$\}, \{$裏$\}, \{$表$,$裏$\}\}$ だね」
▲「で、やっと確率の話に入れるんだね」
■「確率というのは、事象の集合 $\mathcal{F}$ から実数を得る関数で、以下の性質を満たすもののことだ。ここで、$A$ とかは、$\mathcal{F}$ の要素とするよ」
- $0\le P(A)\le 1$
- $A_1, A_2, A_3, \dots \in\mathcal{F}$ で、任意の異なる $i, j$ について $A_i\cap A_j=\varnothing$ ならば、$P(A_1\cup A_2\cup A_3\cup\cdots)$$\ =P(A_1)+P(A_2)+P(A_3)+\cdots$
- $P(\Omega)=1$
▲「1. は簡単だね。確率はどんな事象でも 0 以上 1 以下だよね。2. は、排反事象の確率はそれぞれの事象の確率の和ってやつだね。和の法則とか言われたりするっけ。3. は、全事象の確率が 1 になるってことだね。まあ、そりゃそうだよね。どれかは起こるんだから」
■「ここから $P(\varnothing)=0$ は証明できる?」
▲「なんかやたらと証明させてくるね。3. を使うんでしょ? $\varnothing$ が $\Omega^c$ であることを使うはずだから、えっと……こうかな」
定義 3. より $P(\Omega)=1$
$\Omega\cap\varnothing=\varnothing$ なので、定義 2. より $P(\Omega\cup\varnothing)=P(\Omega)+P(\varnothing)$ である。
$\Omega\cup\varnothing=\Omega$ なので、$1=1+P(\varnothing)$ となり、$P(\varnothing)=0$ である。
■「OK だね。確率の定義はこれだけ」
▲「え、これだけ? 確率っぽい表現が無いんだけど、こんなものなの?」
■「うん。公理的確率論では、“起こりやすさ” や “ランダム” といった概念を用いずに確率を定義するんだ。こうすることで、集合論や他の概念からの自然な発展として、既存の数学理論だけで扱えるようになる」
▲「なんか不思議な感じだけど、ある意味数学っぽいってことなのかな」
■「そうだね。例えば ε-δ 論法では “近づく” というような概念を用いずに極限を定義する。極力、数学の外にある新しい概念を用いずに定義したい気持ちがあるんだね」
▲「なんか知らない話をされたけど、そういうものとして受け入れるよ」
■「この、標本空間 $\Omega$、標本空間の部分集合の集合(完全加法族) $\mathcal{F}$、確率 $P$ をセットにしたもの $(\Omega, \mathcal{F}, P)$ を “確率空間” と呼ぶよ」
▲「いまいち “空間” っていう言葉の意味が分からないけど、そういうもんなんだね」
■「まあこれは呼び方の話だからね。あまり深い意味は考えなくていいよ。ちゃんと考えるには測度論の勉強が必要だ」
▲「難しい話はとりあえずパス!」
■「とにかく、これで確率変数の話をする準備が整った」
▲「あ、そうだった! 確率変数について教わるんだった。準備長すぎるよ」
■「これは仕方ないんだよ。じゃあ、確率変数の定義をしよう」
確率変数
■「確率変数は関数なんだ」
▲「え? 変数なのに関数?」
■「うん。ここがややこしいところなんだよね。確率変数というのは、標本空間の元から数などを得る関数だ。つまり、$X:\Omega\rightarrow E$ と書ける。ここで、$E$ というのは普通は自然数 $\mathbb{N}$ や実数 $\mathbb{R}$ だ。また、逆関数についての条件もある」
▲「あー、もう難しい」
■「簡単な例で考えよう。例えば、サイコロを 1 つ振って、4 以上が出れば出た目の 1000 倍だけお小遣いがもらえるとしよう。3 以下が出れば 3000 円」
▲「最小が 3000 円なのは優しいね」
■「このとき、“お小遣い額を表す確率変数” を考えることができる。これを $X$ としよう」
▲「$X$ が関数ってことは、$X($1の目$)=3000$ ってこと?」
■「まさにその通り。$X$ は標本空間の 1 つに対して 1 つの値を割り当てているんだ。ここで、同じ標本空間の元に対して複数の値があってはいけない。” 1 が出たら 3000 円になったり 1000 円になったりする” みたいなのはダメ」
$X($1の目$)=3000$
$X($2の目$)=3000$
$X($3の目$)=3000$
$X($4の目$)=4000$
$X($5の目$)=5000$
$X($6の目$)=6000$
▲「この場合は、$E=\{3000, 4000, 5000, 6000\}$ ってこと?」
■「うん。別に $E=\mathbb{N}$ と解釈しても問題は無いけどね。$X$ が$E$ のすべての値になりうる必要はない」
▲「確率変数っていうからには、確率と関係があるんだよね?」
■「うん。事象には確率が設定されているんだったよね?」
▲「そうだね。0 以上 1 以下の値だよね。和の法則とかが定義されてるやつ」
■「そこで、確率変数についても確率を考えてみよう」
▲「確率変数の確率? $X=6000$ になる確率とかってこと?」
■「そうそう。でも、これも事象みたいに ” $X$ の値域(取りうる値)の部分集合” について考えよう」
▲「$X\in\{5000, 6000\}$ になる確率とかってこと?」
■「うん。このとき、事象と同じように、$E$ の完全加法族 $\mathcal{E}$ を考えて、$B\in\mathcal{E}$ の確率を考えるんだけど、難しいことは置いておこうか」
▲「うん。難しい話はやめとこう」
■「確率の定義だけど、事象にはすでに確率が用意されてるんだよね。それを使いたいね」
▲「どうやって?」
■「$X=\{5000, 6000\}$ になるってことは、サイコロの目が 5 か 6 ってことだから、その確率は $P(\{$5の目$,$6の目$\})$ だよね」
▲「うん。だから 1/3 だよね」
■「いや、まだ具体的な確率の値については話をしていないよ」
▲「あ、ほんとだ! サイコロの確率が全部 1/6 とか決めてなかったね」
■「ここで使うサイコロの性質は ” 1 から 6 の目が出る” ということしか決めていない。現実のサイコロが歪んでいるかどうかに関わりなく、一般的な議論をしているんだ」
▲「6 が出やすいと嬉しいな」
■「それはさておき、$X$ がある値の集合に入るということを、事象に対応させることができる。つまり、$X$ の取りうる値 $E$ の部分集合たち $\mathcal{E}$ から事象 $\mathcal{F}$ を得る関数を作ることができる。これを $X^{-1}:\mathcal{E}\rightarrow\mathcal{F}$ として、以下のように定義しよう」
$B\in\mathcal{E}$ に対して、$X^{-1}(B)=\{\omega\in\Omega|X(\omega)\in B\}$
▲「えっと、$\omega$ が標本空間の元(サイコロの目とか)だから、$X$ を通したら $B$ に入るような標本空間の元の集合ってことだね。$B=\{5000, 6000\}$ なら、$X^{-1}(B)=\{$5の目$,$6の目$\}$ だよね」
■「うん。このとき、$X^{-1}(B)$ は、事象になっているよね?」
▲「事象っていうのは、標本空間 $\Omega$ の部分集合だから、そうだね」
■「厳密には、事象は標本空間 $\Omega$ のある完全加法族 $\mathcal{F}$ の元だから、$\Omega$ の部分集合が必ず事象になるとは限らない。だから、確率変数 $X$ について、”任意の $B\in\mathcal{E}$ について $X^{-1}(B)\in\mathcal{F}$ である” という条件が付く」
▲「あーもう難しい話はやめてー」
■「はいはい。とにかく、確率変数 $X$ は標本空間 $\Omega$ の元から数を得る関数で、逆に数の集合 $B$ を与えると事象を返すような逆関数っぽいものが作れる」
▲「で、何の話だっけ?」
■「確率変数の確率の話。$X\in\{5000, 6000\}$ の確率は、逆関数の結果 $\{$5の目$,$6の目$\}$ を使って、$P(\{$5の目$,$6の目$\})$ であると考えることができるよね」
▲「うん」
■「一般化するとこんな感じ。事象に対する確率の記号と被らないように、確率変数 $X$ に対する確率を $P_X$ を書こう。これは、$E$ の部分集合の集合 $\mathcal{E}$ の元から実数を得る関数だ」
$B\in\mathcal{E}$、について、$P_X(B)=P(X^{-1}(B))$
▲「ややこしいね」
■「あんまり抽象的すぎるのもややこしいから、確率を決めてみようか」
▲「全部 1/6 ?」
■「とりあえずはそれでいいかな。$P(\{$1の目$\})=1/6$。他の目も同じ」
▲「だったら、$P_X(\{5000, 6000\})=P(\{$5の目$,$6の目$\})=1/3$ ってこと?」
■「そうだね。和の法則から、
$P(\{$5の目$,$6の目$\})=P(\{$5の目$\})+P(\{$6の目$\})=1/6+1/6=1/3$
だね。ちなみに、$P_X(\{3000, 4000\})$ はどうなる?」
▲「えっと、$X^{-1}(\{3000, 4000\})=\{$1の目$, $2の目$, $3の目$, $4の目$\}$ だよね」
■「うん。$X(\omega)=3000$ になるような $\omega$ が 1 の目、2 の目、3 の目の 3 通りあるのがポイントだね」
▲「そしたら、その確率は 2/3 だね。1/6 を 4 つ足すから」
■「正解。こういう、確率変数 $X$ の値に対して確率を与える関数 $P_X$ を “確率分布” と呼ぶんだ」
▲「うーん、こんがらがってきた……」
事象を用いない解釈
■「ややこしい話をたくさんしたけど、これまでの話をかなり簡略化することができる」
▲「どういうこと?」
■「確率変数 $X$ の確率 $P_X(B)\ (B\subset E)$ を考えるとき、一旦事象に戻して定義していたけど、途中のことを無視して “確率変数 $X$ の値に対して確率 $P_X$ が与えられる” と考えることができる」
▲「事象が消えちゃった」
■「お小遣いの話の場合、結局注目するのは “お小遣い額を表す確率変数 $X$” とその確率だけなんだよね。だから、例えば『3000, 4000, 5000, 6000 の面がある 4 面サイコロを振って出た目のお小遣いを貰う。ただし 3000 の目が出る確率は 1/2 、他は 1/6 である』という場合でも、同じ話になるんだよね」
▲「えーっと、たしかにそうだね。実際、お小遣いが 3000 円になるときは、1, 2, 3 のどの目が出たかは関係ないんだもんね」
■「だから、事象という概念を捨てて、確率変数だけを考えることができる。そう考えたときの、確率変数とは何か?」
▲「うーん、確率変数っていうのは、事象のことを無視したら、ただ “何らかの値を取るもの” になるってこと?」
■「そうだ。そう考えると、なんか “変数” っぽくない?」
▲「あー、たしかに! さっきまで $X$ が取りうる値の集合 $E$ は “値域” って感じだったけど、こうなると “定義域” って感じだね」
■「そうだね。でも確率変数はただの変数ではない。どういう特徴がある?」
▲「確率があるんだよね。確率変数 $X$ が取りうる値たち(定義域) $E$ の部分集合 $B$ について、確率 $P_X(B)$ っていう値が設定されてるんだよね」
■「そう。確率論の話では、この確率のことを “その値の取りやすさ” とはしていないし、ランダムという概念も無いことに注意しよう」
▲「で、その $P_X$ のことを確率分布っていうんだよね」
■「うん。実際は、$X$ の取りうる値が整数だけとか、離散的(飛び飛び)の場合は、1 つの値についての $P_X$ の値を確率分布とするのが普通だね。整数の場合は、$P_X$ は自然数から 0 以上 1 以下の実数を得る関数だ」
▲「お小遣いの例だと、$P_X(3000)=1/2,\ $$P_X(4000)=P_X(5000)=P_X(6000)=1/6$ だね」
■「うん。$X$ の取りうる値が実数とか、連続の場合は、確率分布の定義のしかたがちょっと違う。これはまた別の機会に話そう」
▲「いやー、長かったね」
■「ちょっと喋りすぎちゃったかな。確率論の基礎は難しいからね」
▲「確率変数の雰囲気とか、変数っぽさはなんとなく分かったけど、もっと具体的な話も欲しいね」
■「また今度、離散型と連続型の話も含めて、具体的な話をするよ。実際、今回の話は統計検定にはあまり関係ないしね……」
▲「え? いま何か言った?」