■「今日は複数の確率変数を扱う方法について考えよう」
▲「複数の確率変数? サイコロを 2 個振るとか?」
■「そんな感じだったり、そうじゃなかったり。まず、この前のおさらいをしよう」
前回のおさらい
▲「確率変数 $X$ っていうのは、$X=1$ とか $X=2$ とかの値を取る変数なんだけど、取る値に対して、$X=1$ になる確率 $P(X=1)$ とかの値が割り当てられているんだよね」
■「うんうん」
▲「取りうる値が整数だけの確率変数を離散型確率変数と言って、確率関数 $f_X(x)=P(X=x)$ が定義されるんだよね。で、次の性質が成り立つよ」
$$P(X=x)=f_X(x)$$
$$0\le f_X(x)\le 1$$
$$\sum_{x=-\infty}^\infty f_X(x)=1$$
$$P(a\le X\le b)=\sum_{a}^b f_X(x)$$
■「そうだね。累積分布関数は今回は出てこないから飛ばそう」
▲「取りうる値が実数の区間とか、連続的になってるような確率変数を連続型確率変数と言って、確率関数の代わりに確率密度関数 $f_X(x)$ が定義されるんだよね」
■「うん。$f_X(x)$ の値自体が確率を意味するわけではなかったよね」
▲「そうだったね。連続型だと $P(X=a)$ みたいなのは値が 0 になって意味がなくて、代わりに $P(a\le X\le b)$ みたいな区間の確率に意味があるんだよね。で、次の性質が成り立つよ」
$$f_X(x)\ge 0$$
$$\int_{-\infty}^\infty f_X(x){\rm d}x=1$$
$$P(a\le X\le b)=\int_{a}^b f_X(x){\rm d}x$$
■「大丈夫だね。じゃあ、今日の話に入ろうか」
複数の確率変数
同時確率(密度)関数
▲「確率変数が複数あるっていうのは、サイコロを 2 個振るみたいなこと?」
■「いろいろあるけど、そういう場合もあるね。例として、公平な 6 面サイコロを 2 個振って、それぞれの出た目の値を $X$, $Y$ としよう。この場合、両方とも離散型確率変数になるけど、確率関数 $f_X(x)$, $f_Y(y)$ は分かる?」
▲「どっちも、1, 2, 3, 4, 5, 6 で 1/6、それ以外の整数で 0 だよね。この前やったじゃん」
■「そうだね。じゃあ、$(X,Y)=(1,2)$ になる確率はどうなる?」
▲「これって、$X=1$ かつ $Y=2$ ってことだよね?」
■「うん。丸かっこの中に数をカンマ区切りで書いた場合は、基本的に順番に意味がある。波かっこの場合は {1, 2} という集合のことがあって、その場合は順番に意味はないけどね」
▲「じゃあ、$X=1$ の確率が 1/6 で、$Y=2$ の確率が 1/6 だから、両方起こるってことはその積で 1/36 だよね」
■「正解。今考えたような、複数の確率変数の組のことを多次元確率変数と呼んだりする。つまり、$(X, Y)$ を 1 つの 2 次元確率変数として考えるってこと」
▲「ふーん。それだけ?」
■「いやいや、それだけじゃないよ。多次元確率変数にも確率関数や確率密度関数があるんだけど、これは同時確率(密度)関数と呼ばれる」
▲「同時?」
■「うん。$X=x$, $Y=y$ が同時に成り立つ確率だから、同時確率、かな? 同時確率(密度)関数は、$f_{X,Y}(x,y)$ のように、多変量関数として表現される」
▲「多変量関数って、関数が受け取る値の個数が多いってことだよね」
■「うん。今回の場合は 2 変量だね。今考えている $(X, Y)$ についての同時確率関数はどうなる?」
▲「えっと、$x, y$ が両方とも 1 以上 6 以下の場合だけ考えれば良くて、その場合は全部 1/36 だよね」
$$f_{X,Y}(x,y) = \begin{cases} \displaystyle \frac{1}{36}&(0\le x\le 6, 0\le y\le 6)\\ 0&(\text{otherwise.}) \end{cases}$$
■「そうだね。ちなみに、同時確率(密度)関数についても、全体の合計が 1 になるという性質があるし、区間の確率が総和や積分で計算できるようになっている」
離散型:
$$\sum_x \sum_y f_{X,Y}(x,y)=1$$
$$P(a\le X\le b,c\le Y\le d)=\sum_{x=a}^b\sum_{y=c}^d f_{X,Y}(x,y)$$
連続型:
$$\int_x \int_y f_{X,Y}(x,y){\rm d}y{\rm d}x=1$$
$$P(a\le X\le b,c\le Y\le d)=\int_{x=a}^b\int_{y=c}^d f_{X,Y}(x,y){\rm d}y{\rm d}x$$
▲「シグマの下に $x$ しか書いてないのはどういう意味?」
■「$x$ の取りうる値すべてについて和を取るという意味。面倒だから省略してる」
▲「なるほど。$-\infty$ から $\infty$ までってことなのね。積分も同じ?」
■「うん。連続型の 1 つ目の式では、$y=-\infty$ から $\infty$ まで $y$ で積分して、それから $x=-\infty$ から $\infty$ まで $x$ で積分している。二重積分だね」
▲「積分は難しそうだね」
独立
■「今回の場合、$f_{X,Y}(x,y)=f_X(x)f_Y(y)$ が成り立つ。同時確率は、それぞれの確率の積になるんだね」
▲「”今回の場合” って、どんな場合でもそうじゃないの?」
■「それは違う。例えば、1 個のサイコロを振って、出た目の値を 2 つの確率変数 $X$, $Y$ の両方の値に設定するとしよう。つまり、常に $X=Y$ になるということだね。もちろん、$X$ も $Y$ もさっきの例と同じ確率関数だ。でも、同時確率は、例えば $f_{X,Y}(1, 2)=0$ となる。$X=Y$ 以外ありえないからね。また、$f_{X,Y}(2,2)=1/6$ だ。振ったサイコロの目が 2 ということだからね」
▲「えー! そんなのずるくない!? 確率関数 2 個ある意味無いじゃん!」
■「ずるくはないよ。理論的には問題ない」
▲「じゃあ、どういう場合に “同時確率はそれぞれの確率の積” が成り立つの?」
■「えっと、まず、$f_{X,Y}(x,y)=f_X(x)f_Y(y)$ が成り立つとき、『$X$ と $Y$ は独立である』と言う。記号で書くなら、垂直記号が使われることがある」
$$X\perp Y$$
▲「独立って聞いたことあるね。そういう定義なんだ」
■「だから、確率変数が独立なら同時確率はそれぞれの確率の積になる。当たり前だね。積になるような状態に “独立” という名前をつけたんだから」
▲「なんかこう、”独立” のわかりやすいイメージは無いの?」
■「独立というのは、『片方の値がもう片方の確率に影響を与えない』とか『片方の値だけ知ってももう片方について手がかりを得られない』みたいなイメージかな。全く無関係というイメージ」
▲「確かに、片方のサイコロの目を知っても、もう片方は予想できないよね。でもさっきの独立じゃない例だと、$X$ の値を知ったら $Y$ の値も分かるね」
■「もうちょっと微妙な例もある。例えば、サイコロを 2 個振って、出た目の大きい方を $X$、小さい方を $Y$ としてみよう。同じ値が出た場合は $X, Y$ ともにその値とする」
▲「えっと、この場合は、例えば $X=3$ が分かったら、大きいほうが 3 なんだから $Y$ は 3 以下ってことが分かるね。確かに、$X$ の値が $Y$ の確率に影響を与えてるね」
■「そうだね。1 つに確定はしないけど、情報が無いよりは予想しやすくなったね。この場合の $f_{X,Y}(x,y)$ も計算してみると面白いと思うけど、面倒なので今はやめとこうか」
▲「暇なときにやってみるよ。ところで、2 つの確率変数が独立かそうじゃないかってどうやって調べるの?」
■「それは、同時確率(密度)関数の形から分かる。そのためには、周辺化という処理が必要だ」
周辺化
▲「周辺化って何?」
■「同時確率(密度)関数から、それぞれの確率変数だけの確率(密度)関数を得ること」
▲「どうやるの?」
■「2 個の離散型確率変数 $X$, $Y$ について、同時確率関数 $f_{X,Y}(x,y)$ が分かっているとする。このとき、$P(X=1)$ の確率はどうなる?」
▲「えー。どうなる?って言われても」
■「$X=1$ というのは、$(X,Y)=(1,1)$ または $(X,Y)=(1,2)$ または……ってことだよね」
▲「あ、そうか、だから、こういう式が成り立つんだね」
$$P(X=1)=P(X=1,Y=1)+P(X=1,Y=2)+\cdots$$
■「うんうん」
▲「で、総和の形で書くと、こうなるんだね」
$$P(X=1)=\sum_y P(X=1, Y=y)$$
■「そうそう。$X$ だけについての確率関数 $f_X(x)$ はどうなる?」
▲「それは、こうだね」
$$f_X(1)=P(X=1)=\sum_y P(X=1, Y=y)=\sum_y f_{X,Y}(1,y)$$
▲「だから、一般にこうなるね」
$$f_X(x)=\sum_y f_{X,Y}(x,y)$$
■「お見事。これが周辺化。$Y$ の確率関数はどうなる?」
▲「$X$ と $Y$ を入れ替えて、こうだね」
$$f_Y(y)=\sum_x f_{X,Y}(x,y)$$
■「そうだね。連続型確率変数についても、同じようなことが成り立つ」
$$f_X(x)=\int_y f_{X,Y}(x,y){\rm d}y$$
$$f_Y(y)=\int_x f_{X,Y}(x,y){\rm d}x$$
■「また、多次元確率変数の各確率変数単体の確率(密度)関数を、周辺確率(密度)関数と呼んだりする」
▲「周辺確率(密度)関数を得るから、周辺化なんだね」
▲「同時確率(密度)関数 $f_{X,Y}(x,y)$ が与えられて $X$ と $Y$ は独立か?って聞かれたら、周辺化で出た確率(密度)関数を使って、$f_{X,Y}(x,y)=f_X(x)f_Y(y)$ が成り立つかどうかをチェックすればいいんだね」
■「そう。ここで例題。次の同時確率密度関数について、$X, Y$ は独立?」
$$f_{X,Y}(x,y)=4xy\ (0\le x\le 1,0\le y\le 1)$$
(Wolfram Alpha より)
▲「うっ、連続型…… 定義域以外では 0 としていいんだよね。とりあえず周辺化すればいいから、これを計算するんだよね」
$$f_X(x)=\int_{y=0}^1 4xy{\rm d}y$$
■「うんうん」
▲「$y$ で積分するときは、$x$ は定数として考えればいいはずだから、$4xy$ の原始関数は $2xy^2+C$ だよね。だから、こうだね」
$$f_X(x)=\left [2xy^2 \right ]_0^1=2x$$
■「合ってるよ」
▲「じゃあ、$y$ についても同じ計算で $f_Y(y)=2y$ になるはずだから、掛けたら $4xy$ だね。だから、これが成り立って、独立だね!」
$$f_{X,Y}(x,y)=4xy=2x\times 2y=f_X(x)f_Y(y)$$
■「正解。じゃあ、これはどうだろう?」
$$f_{X,Y}(x,y)=x+y\ (0\le x\le 1,0\le y\le 1)$$
(Wolfram Alpha より)
▲「まだ続くの!? どうせ今度は独立じゃないんでしょ。とりあえずさっきと同じように、こうだね」
$$f_X(x)=\int_{y=0}^1 (x+y){\rm d}y=\left [xy+\frac{1}{2}y^2\right ]_0^1=x+\frac{1}{2}$$
■「うんうん」
▲「同じように $y$ についても $f_Y(y)=y+1/2$ だから、今回は独立じゃないね」
$$f_X(x)f_Y(y)=\left (x+\frac{1}{2}\right )\left (y+\frac{1}{2}\right )\neq f_{X,Y}(x,y)$$
■「正解。周辺化と独立はもう大丈夫だね」
まとめ
▲「複数の確率変数について、『それぞれが同時にこんな値になる』とか『こんな区間に入る』とかの確率を表すために、同時確率(密度)関数っていうのがあって、以下の性質を満たすんだったね」
離散型:
$$P(X=x,Y=y)=f_{X,Y}(x,y)$$
$$\sum_x \sum_y f_{X,Y}(x,y)=1$$
$$P(a\le X\le b,c\le Y\le d)=\sum_{x=a}^b\sum_{y=c}^d f_{X,Y}(x,y)$$
連続型:
$$\int_x \int_y f_{X,Y}(x,y){\rm d}y{\rm d}x=1$$
$$P(a\le X\le b,c\le Y\le d)=\int_{x=a}^b\int_{y=c}^d f_{X,Y}(x,y){\rm d}y{\rm d}x$$
▲「で、同時確率(密度)関数から、それぞれの確率変数の確率(密度)関数、つまり周辺確率(密度)関数を得る計算を周辺化といって、こういうふうに計算されるよ」
離散型:
$$f_X(x)=\sum_y f_{X,Y}(x,y)$$
$$f_Y(y)=\sum_x f_{X,Y}(x,y)$$
連続型:
$$f_X(x)=\int_y f_{X,Y}(x,y){\rm d}y$$
$$f_Y(y)=\int_x f_{X,Y}(x,y){\rm d}x$$
▲「で、同時確率(密度)関数が周辺確率(密度)関数の積になる場合、その確率変数たちは独立であるって言うんだよね。独立はなぜか垂直記号で書く」
$$X\perp Y\Leftrightarrow f_{X,Y}(x,y)=f_X(x)f_Y(y)$$
■「完璧だね」
▲「やったー!」
■「ちなみに、今回は確率変数 2 個で考えたけど、 3 個以上の場合もあるよ。3 次元確率変数とかそれ以上とか。さて、今日はここまでにして、次回は期待値の話をしよう」
▲「おお! ついに競プロでもよく聞く期待値!」
■「競プロでも出てくるテクニックの話をするよ」
▲「良いね。楽しみ!」