▲「お兄ちゃん! 今日は期待値の話だよ!」
■「テンション高いね」
▲「期待値の話が聞きたくてやってるからね」
■「楽しみにしてくれるのは良いけど、期待値以外の話もちゃんと聞いてね」
期待値
基本的な定義
■「期待値ってどういうものか知ってる?」
▲「『宝くじの期待値が 150 円』みたいなやつだよね」
■「真っ先に思いつくのがそれ? まあ、それは正しい期待値の使い方だね」
▲「結局これってどういう定義なの? 宝くじに 150 円の当たりは無いから、”一番出やすい値” とか “これ以上が出る確率とこれ以下が出る確率が同じ” とかじゃないよね」
■「そうだね。今言ったのは、一つ目は “最頻値(mode)” で、二つ目は “中央値(median)” だね。期待値は、“平均値(mean)” に似ている」
▲「平均値? 確率変数が取りうる値の平均ってこと?」
■「いや、ただの平均ではない。ただの平均だったら、宝くじだともっと大きい値になるよね」
▲「うん」
■「期待値は、確率変数が取りうる値を、その確率で重み付けした平均値だ」
▲「重み付け?」
■「うん。要は、出やすい値を重要視して、出にくい値はあまり重要視しないということ。期待値の定義はこう。確率変数 $X$ の期待値を、$E[X]$ と書く」
離散型:
$$E[X]=\sum_{x=-\infty}^\infty xf_X(x)$$
連続型:
$$E[X]=\int_{-\infty}^\infty xf_X(x){\rm d}x$$
▲「離散型のは、($X$ が取る値)×($X$ がその値を取る確率)の和ってことだね。これが平均?」
■「そう。例えば、公平な 6 面サイコロの目を $X$ とすると、$X\sim U_d(1,6)$ だったよね」
▲「$U_d(1,6)$ っていうのは、1 から 6 までの整数を同じ確率でとる一様分布だね」
■「この場合、期待値はこうなる」
$$E[X]=\sum_{x=1}^6 x\times \frac{1}{6}=\frac{1}{6}+\frac{2}{6}+\frac{3}{6}+\frac{4}{6}+\frac{5}{6}+\frac{6}{6}=3.5$$
▲「これは 1 から 6 までの整数の平均値と同じだね」
■「でも、1 が出る確率が 1/2 で、2 から 5 が出る確率が 1/10 の変なサイコロがあったとしよう。このサイコロを振って出た目を $X$ とすると、$X$ の期待値はどうなる?」
▲「そのまま計算して、こうだね。確かに、1 が出やすいから 1 に近づいてるね」
$$E[X]=\sum_{x=1}^6 xf_X(x)=\frac{1}{2}+\frac{2+3+4+5+6}{10}=2.5$$
■「そうだね。これが期待値の基本的な定義」
▲「『基本的な』って、他にもあるの?」
■「期待値をとるオペレータ $E[\cdot]$ の中身に、確率変数の関数が入っている場合がある」
関数の期待値
▲「『期待値をとるオペレータ $E[\cdot]$』っていうのが意味分かんないんだけど」
■「オペレータというのは、作用素とも呼ばれるけど、何かを何かに変換するものを一般的にこう呼ぶ」
▲「変換するものって、関数ってこと?」
■「そうだね。ただ、ベクトルをベクトルに変換したり、関数を関数に変換したりする作用素もあるから、普通の関数っぽくはないかも。まあ、そういう数学的な表現があるということ」
▲「ふーん。じゃあ、『$E[\cdot]$』の中の点って何?」
■「かっこの中に点を書くと、『ここに何かが入ります』という意味になる。関数のことをよく $f(x)$ と書くけど、この引数 $x$ に特定の文字を使いたくないときに $f(\cdot)$ と書くことがある。特別な意味はないよ」
▲「じゃあ、$E[$(何か)$]$ っていう記号があって、これは『(何か) の期待値を出力する』っていう変換だってこと?」
■「そうそう。で、その (何か) の部分に、$X$ みたいな確率変数だけじゃなくて、確率変数の関数が入ることもある」
▲「確率変数の関数?」
■「例えば $X^2$ とか、$X+\frac{1}{X}$ とか」
▲「$E[X^2]$ っていうのは、$X^2$ の期待値ってこと?」
■「うん。どうやって計算すると思う?」
▲「えー、なんだろう。こう?」
$$E[X^2]=\sum_{x=-\infty}^\infty \left\{xf_X(x)\right\}^2$$
■「残念。確率の方はそのままなんだ。これが正解」
離散型:
$$E[X^2]=\sum_{x=-\infty}^{\infty} x^2 f_X(x)$$
連続型:
$$E[X^2]=\int_{-\infty}^\infty x^2 f_X(x){\rm d}x$$
▲「なんで確率の部分がそのままなの?」
■「$X$ が公平な 6 面サイコロの目だとして、新たな確率変数 $Y$ を、$Y=X^2$ で定義したとする。この場合、$Y$ の確率関数 $f_Y(y)$ はどうなる?」
▲「えーっと、$X$ の取りうる値が 1, 2, 3, 4, 5, 6 だから、$Y$ の取りうる値は 1, 4, 9, 16, 25, 36 だよね。どれも等しい確率のはずだから、こういうこと?」
$$f_Y(y) = \begin{cases} \displaystyle \frac{1}{6}&(y\in \{1,4,9,16,25,36\})\\ 0&(\text{otherwise.}) \end{cases}$$
■「そうだね。じゃあ、その期待値は?」
▲「あー、たしかにこの期待値を計算したら、(1+4+9+16+25+36)/6 になるね。確率は 1/6 のままで、掛ける値だけが 2 乗になってるね」
■「一般に、$E[\cdot]$ の中に確率変数 $X$ の関数 $g(X)$ が入っているとき、期待値はこう計算される」
離散型:
$$E[g(X)]=\sum_{x=-\infty}^\infty g(x)f_X(x)$$
連続型:
$$E[g(X)]=\int_{-\infty}^{\infty} g(x)f_X(x){\rm d}x$$
■「また、任意の確率分布に対して、 $E[1]=1$ が必ず成り立つ。」
▲「こういう計算になるから、確率(密度)関数の性質の一つと一致するね」
$$E[1]=\sum_{x=-\infty}^\infty 1\times f_X(x)=1$$
$$E[1]=\int_{-\infty}^\infty 1\times f_X(x){\rm d}x=1$$
▲「期待値って、この前やった複数の確率変数の話にもあるの?」
■「うん。確率変数 $X,Y$ の同時確率(密度)関数を $f_{X,Y}(x,y)$ とすると、$g(X,Y)$ の期待値はこう計算される」
離散型:
$$E[g(X,Y)]=\sum_{x=-\infty}^\infty \sum_{y=-\infty}^\infty g(x,y)f_{X,Y}(x,y)$$
連続型:
$$E[g(X,Y)]=\int_{x=-\infty}^\infty \int_{y=-\infty}^\infty g(x,y)f_{X,Y}(x,y){\rm d}y{\rm d}x$$
▲「そのまんまだね」
期待値の線形性
■「期待値には、線形性という良い性質がある」
▲「競プロで聞いたことある!」
■「意味は知ってる?」
▲「知らない!」
■「じゃあ説明しよう。線形というのは、ざっくり言うと一次式ということ」
▲「二乗とかが無いってこと?」
■「うん。また、$XY$ みたいな、複数の確率変数の積の項も、二次の項ということになるからダメ。つまり、確率変数が $X,Y$ の 2 個だったら、定数 $a,b$ を用いて $aX+bY$ で表せるようなものを線形という。また、$X,Y$ から $aX+bY$ を得る変換を線形変換と呼ぶ」
▲「で、期待値の線形性っていうのは?」
■「何らかのオペレータにおける線形性というのは、『線形変換した結果にオペレータを作用させたものが、それぞれにオペレータを作用させてから線形変換したものと一致する』ということ」
▲「意味わかんない」
■「式で書くと、こういうこと」
$$E[aX+bY]=aE[X]+bE[Y]$$
▲「なんだ、簡単じゃん。最初からこっちを見せてくれればいいのに」
■「これが実はものすごく強力なんだよ。証明はできる?」
▲「こういうのは定義通り計算すればいいんだよね。とりあえず離散型……」
$$E[aX+bY]=\sum_{x=-\infty}^\infty \sum_{y=-\infty}^\infty (ax+by)f_{X,Y}(x,y)$$
$$=a\sum_{x=-\infty}^\infty \sum_{y=-\infty}^\infty xf_{X,Y}(x,y)+b\sum_x \sum_y yf_{X,Y}(x,y)$$
▲「シグマ 2 つは入れ替えてもいいんだっけ?」
■「無限和だけど、今回は大丈夫だよ。細かい条件はあるけど、とりあえず気にしないことにしよう。確率計算の場合はだいたい大丈夫だよ」
▲「雑だね。じゃあ、こういうことかな?」
$$=a\sum_{x=-\infty}^\infty x\sum_{y=-\infty}^\infty f_{X,Y}(x,y)+b\sum_{y=-\infty}^\infty y\sum_{x=-\infty}^\infty f_{X,Y}(x,y)$$
$$=a\sum_{x=-\infty}^\infty xf_X(x)+b\sum_{y=-\infty}^\infty yf_Y(y)$$
$$=aE[X]+bE[Y]$$
▲「これって、この前やった周辺化だよね!」
■「そう。周辺化の計算になるから、同時確率(密度)関数が周辺確率(密度)関数になる」
▲「積分でも同じだよね?」
■「うん。総和にも積分にも線形性があって、そのおかげで期待値も線形性を持つようになるんだ」
▲「線形じゃないとダメだから、こういうのはダメってことだよね?」
$$E[XY]=E[X]E[Y]?$$
■「うん。それは一般にはノットイコールだね。でも、こういうことはできるよ」
$$E[3X^2+2XY+4Y^2]=3E[X^2]+2E[XY]+4[Y^2]$$
▲「$X^2$ とか $XY$ とかを別々の項として見たら、それぞれで線形性が使えるってことだね」
▲「これって、$X$ と $Y$ が独立じゃなくても使えるんだよね? 証明で独立性を使ってないから」
■「そう! そこが期待値の線形性の強いところ。期待値に持っていくと、『ここの状態が別の場所の状態に影響を与えるからなあ』みたいなのを考えなくても済むんだ」
▲「使いみちがよくわかんないけど」
■「chokudai さんのツイートにある『入れ替わり問題』で使えるよ。解説記事に問題も含めて詳しく書いてあるから、後で見てみて」
▲「はーい」
期待値計算のテクニック
■「期待値の計算で使えるテクニックをいくつか紹介しよう」
▲「わーい」
和に分解
■「公平なら 6 面サイコロを何度も振って、1 から 6 までの全ての目が出たら終わる。このとき、終わるまでの振る回数の期待値はいくら?」
▲「うーん、コンプガチャ?」
■「よく知ってるね…… まだ教えてない知識として、『確率 $p$ で成功するチャレンジが初めて成功するまでの回数の期待値は $1/p$ 』というのを使うよ」
▲「6 つコンプするまでの回数だよね。『6 回振って全種類出れば終わり』だと、その期待値 $1/p$ ってやつを使えそうだけど……」
■「シンプルな期待値の和に分解するのがポイント。ノーヒントでは難しいかな」
▲「和に分解っていうのは、『全部出るまでの回数=(何か)+(何か)』みたいなこと?」
■「そうそう。分解すると、期待値の線形性から『(何か)の期待値+(何か)の期待値』で解けるようになる」
▲「『 1 が出るまでの回数+ 2 が出るまでの回数+……』っていうのはダメか」
■「そうだね。最初の 2 回で 1, 2 がでたら、1 が出るまでの回数は 1 、 2 が出るまでの回数は 2 だけど、1, 2 が両方出るまでの回数は 3 ではなく 2 だ」
▲「えー、わかんない」
■「難しいね。正解を言うと、『( 1 種類目が出るまでの回数)+( 1 種類出てから 2 種類目が出るまでの回数)+……+( 5 種類出てから 6 種類目が出るまでの回数)』と分解する」
▲「あー、コンプ達成率を基準にするんだね。確かに、公平なサイコロだから、『 1 だけ出てる状態』と『 2 だけ出てる状態』を区別する必要は無くて、まとめて考えられるんだね。DP(動的計画法)みたい」
■「まさしく DP の考え方だね。まとめられる状態はまとめる。本質的に異なる状態だけを区別するんだ」
▲「『 1 種類目が出るまでの回数』は絶対に 1 だよね。 1 回振ったら何かの目がでるんだから」
■「そうだね。 1 種類出てから 2 種類目が出るまでの回数の期待値は?」
▲「ここでさっきの話を使うのかな。 1 種類出た状態で、まだ出てない目が出る確率は、残り 5 種類のどれかがでる確率だから $5/6$ だよね」
■「うんうん」
▲「だから、期待値は $6/5$ 回?」
■「正解。残りもその調子で計算して足してみよう」
▲「 $n$ 種類出た状態で $n+1$ 種類目が出る確率は $(6-n)/6$ だから、期待値が $6/(6-n)$ だから、答えはこう?」
$$\frac{6}{6}+\frac{6}{5}+\frac{6}{4}+\frac{6}{3}+\frac{6}{2}+\frac{6}{1}=14.7$$
■「正解。このチャレンジをするときは、だいたい 15 回程度振ることを覚悟しておく必要があるんだね」
▲「日常でこれをすることは無さそうだけどね」
■「シークレットの缶バッジを全種類集めるのに何円程度必要か、みたいな話にすると途端に現実的になるよ」
▲「確かに…… コレクターは大変だぁ」
インジケータ確率変数
■「せっかくだから、さっき解説記事を挙げた『入れ替わり問題』についても見てみようか」
▲「どんな問題?」
■「こんな問題」
互いに区別できる $N$ 個の物が一列に並んでいる。
ここから無作為に 2 つの異なる物を選び、その位置を入れ替える操作を $M$ 回行う。
$M$ 回の swap のあと、元の場所にある物の個数の期待値を計算せよ。
▲「うーん、どこから手を付ければいいかわかんないね」
■「個数の期待値を問う問題で使えるテクニックがあるんだ。それがインジケータ確率変数」
▲「インジケータ?」
■「日本語だと指示確率変数と呼べばいいかな。あまりこの言葉は聞かないけどね。ここでいう “指示” は “命令する” ではなく “指し示す” みたいな意味」
▲「で、結局これは何なの?」
■「 $N$ 個の物それぞれについて、『ある条件を満たす場合に 1 、満たさない場合に 0 をとる確率変数』を用意する。$X_i\ (1\le i\le N)$ としよう。これがインジケータ確率変数」
▲「条件って?」
■「今回の場合は、i 番目の物が元の場所にあれば $X_i=1$、別の場所にあれば $X_i=0$ だね」
▲「これを使うとどうなるの?」
■「条件を満たす物の個数を $Y$ とすると、 $Y$ が $X_i$ の和になる」
$$Y=\sum_{i=1}^N X_i$$
▲「あーほんとだ! 条件を満たす場合だけ +1 されるってことだね」
■「そう。だから、$Y$ の期待値も $X_i$ の期待値の和になる」
$$E[Y]=\sum_{i=1}^N E[X_i]$$
▲「で、 $E[X_i]$ はどうなるの?」
■「定義通りに計算すれば、$X=1$ になる確率に一致する。$X$ は 0 か 1 しか取らないからね。これは、条件が成り立つ確率だ」
$$E[X_i]=\sum_{x=0}^1 xP(X=x)=P(X=1)$$
▲「おー! てことは、$E[Y]$ は、$N$ 個の物それぞれについて、条件が成り立つ確率の和になるってことだね! すごい!」
$$E[Y]=\sum_{i=1}^N P(X_i=1)$$
■「そう。特に今回は、全ての物が対等だから、$P(X_i=1)$ の値は全て等しい。だから、こうなる」
$$E[Y]=N\cdot P(X_0=1)$$
▲「なるほどー。そしたら、あとは 1 つの物だけに注目して、それが元の場所になるか別の場所になるかだけ考えればいいんだね」
■「ちなみにこの問題では、各 $X_i$ は互いに独立ではないんだ」
▲「どういうこと?」
■「例えば、$N=2$ のとき、もしも 1 つ目の物が元の場所にあったら、 2 つ目も必ず元の場所にあるよね」
▲「あー、たしかに。1 つ目が別の場所にあったら、その場所にあった物は絶対に元の場所にいられないね。でもそうすると、1 つ目が元の場所にあったら、他の物も元の場所にありやすいことになるよね?」
■「そうだね」
▲「そういう細かいことは考えなくていいの?」
■「いい。それが期待値の線形性の強いところ。独立でなくても、線形和に分解できればもう完全に個別に考えて良い」
▲「へー、便利だね」
まとめ
■「今回の内容をまとめよう」
▲「確率変数の関数について、期待値っていう値がこう定義されるよ」
離散型:
$$E[g(X)]=\sum_{x=-\infty}^\infty g(x)f_X(x)$$
連続型:
$$E[g(X)]=\int_{x=-\infty}^\infty g(x)f_X(x){\rm d}x$$
■「最初に挙げた、単純な $X$ の期待値 $E[X]$ は、$g(x)=x$ の場合だね」
▲「で、これは複数の確率変数についても、同時確率(密度)関数 $f_{X,Y}(x,y)$ を使ってこう計算できるよ」
離散型:
$$E[g(X,Y)]=\sum_{x=-\infty}^\infty \sum_{y=-\infty}^\infty g(x,y)f_{X,Y}(x,y)$$
連続型:
$$E[g(X,Y)]=\int_{x=-\infty}^\infty \int_{y=-\infty}^\infty g(x,y)f_{X,Y}(x,y){\rm d}y{\rm d}x$$
▲「で、複数の確率変数とかについて、線形性という性質があるよ。これは次の式で表されて、$X$ と $Y$ が独立じゃなくても成立するよ」
$$E[aX+bY]=aE[X]+bE[Y]$$
■「これは非常に便利な性質だね。また、確率(密度)関数の性質からも合わせて、$a$ が定数のとき、次の式が常に成り立つよ」
$$E[a]=a$$
▲「そりゃそうって感じだね。常に定数が得られるなら、その期待値はその定数になるよね」
■「あと、いくつかテクニックを紹介したね」
▲「そうだった。期待値の計算では、期待値が計算しやすいような値の和に分割するっていうのが大事だったね」
■「このとき、いくら個々の期待値が計算しやすくても、和の計算が間違っていたら意味ないからね。正しく和に分割できているかチェックしよう」
▲「特に、条件を満たすものの個数や回数の期待値を計算するときは、条件を満たす場合だけ 1 を取るインジケータ確率変数 $X_i$ を用意すると、個数の期待値がそれぞれの条件成立の確率の和になるから便利だったね」
$$E\left [\sum_{i=1}^N X_i\right ]=\sum_{i=1}^N E[X_i]=\sum_{i=1}^N P(X_i=1)$$
■「最後の話も、各 $X_i$ が独立でなくても成り立つのが強いところだね」
▲「今日の話は直接競プロでも使えるし、面白かったね」
■「そうだね。次回は、分散の話をしようかな。相関係数の話までいけると良いな」
▲「どっちも聞いたことあるね。そっちも楽しみ」