統計学入門：複数の確率変数と独立性

Pocket

■「今日は複数の確率変数を扱う方法について考えよう」

▲「複数の確率変数？　サイコロを 2 個振るとか？」

■「そんな感じだったり、そうじゃなかったり。まず、この前のおさらいをしよう」

1 前回のおさらい
2 複数の確率変数
3 まとめ

前回のおさらい

▲「確率変数 $X$ っていうのは、$X=1$ とか $X=2$ とかの値を取る変数なんだけど、取る値に対して、$X=1$ になる確率 $P(X=1)$ とかの値が割り当てられているんだよね」

■「うんうん」

▲「取りうる値が整数だけの確率変数を離散型確率変数と言って、確率関数 $f_X(x)=P(X=x)$ が定義されるんだよね。で、次の性質が成り立つよ」

$$P(X=x)=f_X(x)$$

$$0\le f_X(x)\le 1$$

$$\sum_{x=-\infty}^\infty f_X(x)=1$$

$$P(a\le X\le b)=\sum_{a}^b f_X(x)$$

■「そうだね。累積分布関数は今回は出てこないから飛ばそう」

▲「取りうる値が実数の区間とか、連続的になってるような確率変数を連続型確率変数と言って、確率関数の代わりに確率密度関数 $f_X(x)$ が定義されるんだよね」

■「うん。$f_X(x)$ の値自体が確率を意味するわけではなかったよね」

▲「そうだったね。連続型だと $P(X=a)$ みたいなのは値が 0 になって意味がなくて、代わりに $P(a\le X\le b)$ みたいな区間の確率に意味があるんだよね。で、次の性質が成り立つよ」

$$f_X(x)\ge 0$$

$$\int_{-\infty}^\infty f_X(x){\rm d}x=1$$

$$P(a\le X\le b)=\int_{a}^b f_X(x){\rm d}x$$

■「大丈夫だね。じゃあ、今日の話に入ろうか」

複数の確率変数

同時確率（密度）関数

▲「確率変数が複数あるっていうのは、サイコロを 2 個振るみたいなこと？」

■「いろいろあるけど、そういう場合もあるね。例として、公平な 6 面サイコロを 2 個振って、それぞれの出た目の値を $X$, $Y$ としよう。この場合、両方とも離散型確率変数になるけど、確率関数 $f_X(x)$, $f_Y(y)$ は分かる？」

▲「どっちも、1, 2, 3, 4, 5, 6 で 1/6、それ以外の整数で 0 だよね。この前やったじゃん」

■「そうだね。じゃあ、$(X,Y)=(1,2)$ になる確率はどうなる？」

▲「これって、$X=1$ かつ $Y=2$ ってことだよね？」

■「うん。丸かっこの中に数をカンマ区切りで書いた場合は、基本的に順番に意味がある。波かっこの場合は {1, 2} という集合のことがあって、その場合は順番に意味はないけどね」

▲「じゃあ、$X=1$ の確率が 1/6 で、$Y=2$ の確率が 1/6 だから、両方起こるってことはその積で 1/36 だよね」

■「正解。今考えたような、複数の確率変数の組のことを多次元確率変数と呼んだりする。つまり、$(X, Y)$ を 1 つの 2 次元確率変数として考えるってこと」

▲「ふーん。それだけ？」

■「いやいや、それだけじゃないよ。多次元確率変数にも確率関数や確率密度関数があるんだけど、これは同時確率（密度）関数と呼ばれる」

▲「同時？」

■「うん。$X=x$, $Y=y$ が同時に成り立つ確率だから、同時確率、かな？　同時確率（密度）関数は、$f_{X,Y}(x,y)$ のように、多変量関数として表現される」

▲「多変量関数って、関数が受け取る値の個数が多いってことだよね」

■「うん。今回の場合は 2 変量だね。今考えている $(X, Y)$ についての同時確率関数はどうなる？」

▲「えっと、$x, y$ が両方とも 1 以上 6 以下の場合だけ考えれば良くて、その場合は全部 1/36 だよね」

$$f_{X,Y}(x,y) = \begin{cases} \displaystyle \frac{1}{36}&(0\le x\le 6, 0\le y\le 6)\\ 0&(\text{otherwise.}) \end{cases}$$

■「そうだね。ちなみに、同時確率（密度）関数についても、全体の合計が 1 になるという性質があるし、区間の確率が総和や積分で計算できるようになっている」

離散型：

$$\sum_x \sum_y f_{X,Y}(x,y)=1$$

$$P(a\le X\le b,c\le Y\le d)=\sum_{x=a}^b\sum_{y=c}^d f_{X,Y}(x,y)$$

連続型：

$$\int_x \int_y f_{X,Y}(x,y){\rm d}y{\rm d}x=1$$

$$P(a\le X\le b,c\le Y\le d)=\int_{x=a}^b\int_{y=c}^d f_{X,Y}(x,y){\rm d}y{\rm d}x$$

▲「シグマの下に $x$ しか書いてないのはどういう意味？」

■「$x$ の取りうる値すべてについて和を取るという意味。面倒だから省略してる」

▲「なるほど。$-\infty$ から $\infty$ までってことなのね。積分も同じ？」

■「うん。連続型の 1 つ目の式では、$y=-\infty$ から $\infty$ まで $y$ で積分して、それから $x=-\infty$ から $\infty$ まで $x$ で積分している。二重積分だね」

▲「積分は難しそうだね」

独立

■「今回の場合、$f_{X,Y}(x,y)=f_X(x)f_Y(y)$ が成り立つ。同時確率は、それぞれの確率の積になるんだね」

▲「”今回の場合” って、どんな場合でもそうじゃないの？」

■「それは違う。例えば、1 個のサイコロを振って、出た目の値を 2 つの確率変数 $X$, $Y$ の両方の値に設定するとしよう。つまり、常に $X=Y$ になるということだね。もちろん、$X$ も $Y$ もさっきの例と同じ確率関数だ。でも、同時確率は、例えば $f_{X,Y}(1, 2)=0$ となる。$X=Y$ 以外ありえないからね。また、$f_{X,Y}(2,2)=1/6$ だ。振ったサイコロの目が 2 ということだからね」

▲「えー！　そんなのずるくない！？　確率関数 2 個ある意味無いじゃん！」

■「ずるくはないよ。理論的には問題ない」

▲「じゃあ、どういう場合に “同時確率はそれぞれの確率の積” が成り立つの？」

■「えっと、まず、$f_{X,Y}(x,y)=f_X(x)f_Y(y)$ が成り立つとき、『$X$ と $Y$ は独立である』と言う。記号で書くなら、垂直記号が使われることがある」

$$X\perp Y$$

▲「独立って聞いたことあるね。そういう定義なんだ」

■「だから、確率変数が独立なら同時確率はそれぞれの確率の積になる。当たり前だね。積になるような状態に “独立” という名前をつけたんだから」

▲「なんかこう、”独立” のわかりやすいイメージは無いの？」

■「独立というのは、『片方の値がもう片方の確率に影響を与えない』とか『片方の値だけ知ってももう片方について手がかりを得られない』みたいなイメージかな。全く無関係というイメージ」

▲「確かに、片方のサイコロの目を知っても、もう片方は予想できないよね。でもさっきの独立じゃない例だと、$X$ の値を知ったら $Y$ の値も分かるね」

■「もうちょっと微妙な例もある。例えば、サイコロを 2 個振って、出た目の大きい方を $X$、小さい方を $Y$ としてみよう。同じ値が出た場合は $X, Y$ ともにその値とする」

▲「えっと、この場合は、例えば $X=3$ が分かったら、大きいほうが 3 なんだから $Y$ は 3 以下ってことが分かるね。確かに、$X$ の値が $Y$ の確率に影響を与えてるね」

■「そうだね。1 つに確定はしないけど、情報が無いよりは予想しやすくなったね。この場合の $f_{X,Y}(x,y)$ も計算してみると面白いと思うけど、面倒なので今はやめとこうか」

▲「暇なときにやってみるよ。ところで、2 つの確率変数が独立かそうじゃないかってどうやって調べるの？」

■「それは、同時確率（密度）関数の形から分かる。そのためには、周辺化という処理が必要だ」

周辺化

▲「周辺化って何？」

■「同時確率（密度）関数から、それぞれの確率変数だけの確率（密度）関数を得ること」

▲「どうやるの？」

■「2 個の離散型確率変数 $X$, $Y$ について、同時確率関数 $f_{X,Y}(x,y)$ が分かっているとする。このとき、$P(X=1)$ の確率はどうなる？」

▲「えー。どうなる？って言われても」

■「$X=1$ というのは、$(X,Y)=(1,1)$ または $(X,Y)=(1,2)$ または……ってことだよね」

▲「あ、そうか、だから、こういう式が成り立つんだね」

$$P(X=1)=P(X=1,Y=1)+P(X=1,Y=2)+\cdots$$

■「うんうん」

▲「で、総和の形で書くと、こうなるんだね」

$$P(X=1)=\sum_y P(X=1, Y=y)$$

■「そうそう。$X$ だけについての確率関数 $f_X(x)$ はどうなる？」

▲「それは、こうだね」

$$f_X(1)=P(X=1)=\sum_y P(X=1, Y=y)=\sum_y f_{X,Y}(1,y)$$

▲「だから、一般にこうなるね」

$$f_X(x)=\sum_y f_{X,Y}(x,y)$$

■「お見事。これが周辺化。$Y$ の確率関数はどうなる？」

▲「$X$ と $Y$ を入れ替えて、こうだね」

$$f_Y(y)=\sum_x f_{X,Y}(x,y)$$

■「そうだね。連続型確率変数についても、同じようなことが成り立つ」

$$f_X(x)=\int_y f_{X,Y}(x,y){\rm d}y$$

$$f_Y(y)=\int_x f_{X,Y}(x,y){\rm d}x$$

■「また、多次元確率変数の各確率変数単体の確率（密度）関数を、周辺確率（密度）関数と呼んだりする」

▲「周辺確率（密度）関数を得るから、周辺化なんだね」

▲「同時確率（密度）関数 $f_{X,Y}(x,y)$ が与えられて $X$ と $Y$ は独立か？って聞かれたら、周辺化で出た確率（密度）関数を使って、$f_{X,Y}(x,y)=f_X(x)f_Y(y)$ が成り立つかどうかをチェックすればいいんだね」

■「そう。ここで例題。次の同時確率密度関数について、$X, Y$ は独立？」

$$f_{X,Y}(x,y)=4xy\ (0\le x\le 1,0\le y\le 1)$$

（Wolfram Alpha より）

▲「うっ、連続型……　定義域以外では 0 としていいんだよね。とりあえず周辺化すればいいから、これを計算するんだよね」

$$f_X(x)=\int_{y=0}^1 4xy{\rm d}y$$

■「うんうん」

▲「$y$ で積分するときは、$x$ は定数として考えればいいはずだから、$4xy$ の原始関数は $2xy^2+C$ だよね。だから、こうだね」

$$f_X(x)=\left [2xy^2 \right ]_0^1=2x$$

■「合ってるよ」

▲「じゃあ、$y$ についても同じ計算で $f_Y(y)=2y$ になるはずだから、掛けたら $4xy$ だね。だから、これが成り立って、独立だね！」

$$f_{X,Y}(x,y)=4xy=2x\times 2y=f_X(x)f_Y(y)$$

■「正解。じゃあ、これはどうだろう？」

$$f_{X,Y}(x,y)=x+y\ (0\le x\le 1,0\le y\le 1)$$

（Wolfram Alpha より）

▲「まだ続くの！？　どうせ今度は独立じゃないんでしょ。とりあえずさっきと同じように、こうだね」

$$f_X(x)=\int_{y=0}^1 (x+y){\rm d}y=\left [xy+\frac{1}{2}y^2\right ]_0^1=x+\frac{1}{2}$$

■「うんうん」

▲「同じように $y$ についても $f_Y(y)=y+1/2$ だから、今回は独立じゃないね」

$$f_X(x)f_Y(y)=\left (x+\frac{1}{2}\right )\left (y+\frac{1}{2}\right )\neq f_{X,Y}(x,y)$$

■「正解。周辺化と独立はもう大丈夫だね」

まとめ

▲「複数の確率変数について、『それぞれが同時にこんな値になる』とか『こんな区間に入る』とかの確率を表すために、同時確率（密度）関数っていうのがあって、以下の性質を満たすんだったね」

離散型：

$$P(X=x,Y=y)=f_{X,Y}(x,y)$$

$$\sum_x \sum_y f_{X,Y}(x,y)=1$$

$$P(a\le X\le b,c\le Y\le d)=\sum_{x=a}^b\sum_{y=c}^d f_{X,Y}(x,y)$$

連続型：

$$\int_x \int_y f_{X,Y}(x,y){\rm d}y{\rm d}x=1$$

$$P(a\le X\le b,c\le Y\le d)=\int_{x=a}^b\int_{y=c}^d f_{X,Y}(x,y){\rm d}y{\rm d}x$$

▲「で、同時確率（密度）関数から、それぞれの確率変数の確率（密度）関数、つまり周辺確率（密度）関数を得る計算を周辺化といって、こういうふうに計算されるよ」

離散型：

$$f_X(x)=\sum_y f_{X,Y}(x,y)$$

$$f_Y(y)=\sum_x f_{X,Y}(x,y)$$

連続型：

$$f_X(x)=\int_y f_{X,Y}(x,y){\rm d}y$$

$$f_Y(y)=\int_x f_{X,Y}(x,y){\rm d}x$$

▲「で、同時確率（密度）関数が周辺確率（密度）関数の積になる場合、その確率変数たちは独立であるって言うんだよね。独立はなぜか垂直記号で書く」

$$X\perp Y\Leftrightarrow f_{X,Y}(x,y)=f_X(x)f_Y(y)$$

■「完璧だね」

▲「やったー！」

■「ちなみに、今回は確率変数 2 個で考えたけど、 3 個以上の場合もあるよ。3 次元確率変数とかそれ以上とか。さて、今日はここまでにして、次回は期待値の話をしよう」

▲「おお！　ついに競プロでもよく聞く期待値！」

■「競プロでも出てくるテクニックの話をするよ」

▲「良いね。楽しみ！」

Pocket