統計学入門：離散型確率変数と連続型確率変数

Pocket

▲「お兄ちゃん、今日はこの前言ってた確率変数の話の続きを教えて！」

■「ああ、確か離散型と連続型の話をするんだったね。いいよ」

1 確率変数の復習
2 離散型確率変数
3 連続型確率変数
4 まとめ

確率変数の復習

■「そもそも、確率変数ってなんだっけ？」

▲「事象がどーこー言う考え方もあったけど、そうじゃないなら “何らかの値を取る変数で、取る値に対して確率が定義されているもの” でいいんだっけ？」

■「そうだね。この前の例だと『6面サイコロを振って出た目の 1000 倍のお小遣いがもらえる。ただし、1 か 2 が出ても 3000 円もらえる』という状況だったね。この場合、お小遣いの額を表す確率変数 $X$ の値と確率はどうなる？」

▲「$X$ の取りうる値は 3000, 4000, 5000, 6000 で、それぞれの確率は、公平なサイコロだと 1/2, 1/6, 1/6, 1/6 になるよね」

■「うん。以下のような書き方で確率を表すことにしよう」

$P(X=3000)=\frac{1}{2}$

▲「あれ、この前は $P_X(3000)$ だったけど、今回は違うの？」

■「事象を基準とした確率を考えないことにするから、記号は $P$ で統一しよう。$P()$ の中身のことが起こる（中身が真になる）確率を表すということ。この書き方でも特に困ることはない」

▲「ふーん。じゃあ、離散型と連続型について教えて！」

離散型確率変数

■「まずは離散型。これは、$X$ の取りうる値が整数など、飛び飛びのもののことだ」

▲「無限でもいいの？」

■「うん。例えば、6面サイコロの目なら、{1, 2, 3, 4, 5, 6} の 6 通りだけど、” 6 の目がでるまで振り続けるときのチャレンジ回数” だと、いくらでも大きい整数になりうるよね」

▲「 1 万回振って 6 が一回も出ないのはさすがに無さそうだけどね……」

■「可能性はゼロではないからね」

▲「じゃあ、$X$ の取りうる値が有理数全体だったらどうなるの？」

■「難しいことを聞くね。有理数全体だと、一応濃度が可算だから離散型ってことになるのかな……　ごめん、僕もよくわからないな。そんな変な例は扱わないから、とりあえず気にしないってことでどうかな」

▲「まー、そういうことにしといてあげるよ」

■「離散型確率変数 $X$ に対する確率関数 $f_X(x)$ が、以下のように定義されるよ」

$$f_X(x)=P(X=x)$$

▲「これって、この前の $P_X(x)$ じゃないの？」

■「うん。同じだね。関数として扱うから、関数っぽく $f$ で表現することがあるね。確率変数の記号が明らかなときは、下付きの $X$ が省略されることもあるよ」

▲「サイコロの目だと、$f_X(1)=f_X(2)=f_X(3)=f_X(4)=f_X(5)=f_X(6)=1/6$ ってこと？」

■「うん。$f_X(0)=f_X(7)=0$ で、$f_X(1.5)$ などは定義されないと考えていいかな」

▲「整数についてしか定義されないなら、数列みたいだね」

■「そうだね。負の整数も取るときは微妙だけど、非負整数のみで値を持つ場合は数列のように扱うことができるね」

▲「確率関数はもちろん 0 以上 1 以下だよね」

■「うん。それと、全部足して 1 になるという条件もある。$X$ が整数だけ取るとすると、こんな感じだね」

$$0\le f_X(x)\le 1$$

$$\sum_{x=-\infty}^\infty f_X(x)=1$$

■「ちなみに、正であるという条件と総和が 1 であるという条件から、$f_X(x)\le 1$ はわざわざ書かなくても明らかだね」

▲「-∞ から ∞ までのシグマって、全部の整数について足すってことだよね」

■「うん。実際は、非負整数のみ取る場合を考えることが多いかな。その場合は、0 から ∞ までになるね」

▲「サイコロの目だと、こうなるんだよね」

$$f_X(x) = \begin{cases} \frac{1}{6}&(1\le x\le 6 )\\ 0&(\text{otherwise.}) \end{cases}$$

■「そうだね。こういうふうに、確率変数 $X$ の確率関数が $f_X(x)$ となるとき、『確率変数 $X$ は確率関数 $f_X(x)$ で表される分布に従う』と言うよ」

▲「『$f_X(x)$ に従う』じゃだめなの？」

■「うーん、微妙なところだけど、あくまで $X$ が従うのは “確率分布” であって、$f_X(x)$ はその分布を表現する方法の一つだから、こんな書き方になるんだ」

▲「確率分布って何？」

■「確率分布というのは、簡単に言うと確率変数の値とその確率の関係のことだよ。厳密な定義はたぶん測度論が出てくるからパス」

▲「じゃあ結局それって確率関数のことじゃないの？」

■「実質はそうなんだけど、確率分布を表現する方法は他にもあるんだ」

▲「他の方法ってどんな？」

■「累積分布関数というものと使って表現することができる。これは、$X=x$ になる確率ではなく、$X\le x$ になる確率を表す関数だ」

$$F_X(x)=P(X\le x)$$

▲「累積って、累積和のこと？」

■「ここではそうだね。実際、サイコロの目の場合、累積分布関数はこうなる」

$$F_X(x) = \begin{cases} 0&(x\le 0)\\ \frac{x}{6}&(1\le x\le 5)\\ 1&(x\ge 6) \end{cases}$$

▲「普通に累積和だね。わざわざこっちで表現していいことあるの？」

■「これを使うと、$X$ がある区間に含まれる確率を、引き算で表現できる」

$$P(a\le X\le b)=\sum_{x=a}^b f_X(x)=F_X(b)-F_X(a-1)$$

▲「累積和で区間の和を計算する、競プロでよく見るあれだね」

■「とはいえ、離散型確率分布では累積分布関数をあまり使わない」

▲「まあ、そうだよね。高速化する必要ないんだから、普通に確率の和で表す方が分かりやすいよね。じゃあなんでこの概念があるの？」

■「連続型確率変数ではまだ使うことがある。これについては後で説明するよ」

▲「ふーん。他には表現方法はないの？」

■「他によくあるのは、名前のついている分布で表現する方法かな」

▲「名前のついている分布？」

■「例えば、公平なサイコロの目の確率分布は、離散型一様分布と呼ばれる」

▲「一様分布って聞いたことある。全部確率が一緒ってこと？」

■「うん。この離散型一様分布は、$U_d(a,b)$ と書かれることがある。$a$ は最小値、$b$ は最大値だね」

▲「U と d ってどういう意味？」

■「一様分布は英語で “uniform distribution” と言うんだ。”distribution” は “分布” という意味。そして、”離散” は英語で “discrete”。だから、離散型一様分布は “discrete uniform distribution”」

▲「なるほどー。で、この書き方でどう表現するの？」

■「公平な 6 面サイコロの目を表す確率変数を $X$ とすると、$X$ は $U_d(1,6)$ で表される確率分布に従うわけだ。これを、こんなふうに書く」

$$X\sim U_d(1,6)$$

▲「このニョロニョロが “に従う” って意味？」

■「そうそう。確率関数 $f_X(x)$ が分かっているときに、雑にこう書くこともある」

$$X\sim f_X(x)$$

▲「これは大丈夫なの？」

■「許される範囲の、記号の濫用かな？」

▲「濫用って悪そうな言葉だけど」

■「数学では記号の濫用はよくあるんだよ。誤解が無い範囲で、一般的に通用していれば大丈夫」

▲「名前がついてる分布って他にもあるんだよね？」

■「うん。たくさんあるよ。でも具体的な例はまた今度にしよう」

▲「じゃあ次は連続型だね」

連続型確率変数

■「連続型確率変数は、取りうる値が実数になっていて連続的だ」

▲「例えばどんな？」

■「0 以上 1 以下の実数を一様に取る確率変数 $X$ とかどうかな」

▲「$0.5$ になる確率も、$\sqrt{2}/2$ になる確率も等しいってこと？」

■「それは怪しい」

▲「怪しいってなに！？」

■「あ、いや、その表現は問題がある。だって、$X$ が 0.5 になる確率っていくら？」

▲「えっと、いくらだろう……　ん？　そもそもこの場合 “全体の確率の和が 1 になる” ってどういうこと？」

■「順番に説明していこう。まず、連続型確率変数に対して、$P(X=x)$ という確率は、意味がない。値としては 0 だ」

▲「0 って、$X=x$ になることは無いってこと？　それはおかしくない？　全部ありえなくなるじゃん」

■「例えば、糸を適当に切ったとして、長さがちょうど 5 cm になることってある？」

▲「えっと、ちょうどって本当にちょうど？　さすがに 1 ナノメートルぐらいのズレはあるでしょ」

■「そうだね。だから、長さが 5 cm になる確率は 0 だ」

▲「うーん、そうなるのかぁ。確率は 0 だけど、ありえないって感じでもないんだね」

■「そう。『起こり得ない事象の確率は 0 』というのは正しいけど、実は『確率 0 の事象は起こり得ない』というのは正しくないんだ」

▲「なんか変な感じだねー」

■「そうだね。だから、離散型確率変数みたいな確率関数を定義することができない」

▲「じゃあどうするの？」

■「さっき “糸をちょうど 5 cm に切ることはできない” と言ったけど、4.9 cm 以上 5.1 cm 以下に切ることはできるよね」

▲「そうだね。それならあたしでも物差しがあればできるよ」

■「だから、$P(X=x)$ という “ちょうど” の確率を扱うことはできないけど、$P(a\le X\le b)$ みたいな範囲の確率は扱えるんだ」

▲「あれ、これって離散型確率変数の累積分布関数の話でやったやつだよね」

■「そうそう。だから、$F_X(x)=P(X\le x)$ という累積分布関数を考えればいいんだ」

▲「さっきの ” 0 以上 1 以下の実数を一様に取る確率変数 $X$ “ についてはどうなるの？」

■「どうなると思う？」

▲「え、聞くの」

■「うん。考えてみて」

▲「えっと、例えば $F_X(0.5)$ は、0.5 以下になる確率で、0.5 以下も 0.5 以上も出る確率は同じはずだから、$F_X(x)=0.5$ ？　あれ、0.5 が出る確率はどっちに入れたらいいんだろう……　いや、ちょうど 0.5 になる確率は 0 になるって話だからいいのか」

■「うん。$F_X(x)=0.5$ だね」

▲「他には、例えば $F_X(0.1)$ はどうなるんだろう。0 から 1 までの間で 0.1 以下の割合は、0.1 だよね。じゃあ、$F_x(0.1)=0.1$ ？」

■「うん、良いね」

▲「じゃあ、$F_X(x)=x$ じゃん。で、$x<0$ だともちろん $F_X(x)=0$ で、$x>1$ だと絶対に $X<x$ になるから、$F_X(x)=1$ だよね。だからこうだね」

$$F_X(x) = \begin{cases} 0&(x\le 0)\\ x&(0\le x\le 1)\\ 1&(x>1) \end{cases}$$

■「お見事。これが累積分布関数」

■「この累積分布関数で分布を表現しても良いんだけど、やっぱり離散型みたいに、確率関数みたいなものを作りたい」

▲「なんで？」

■「この式だけだと、” 0 以上 1 以下では一様（出やすさが同じ）” という感じが伝わりにくい」

▲「たしかに」

■「さっき “区間の確率なら扱える” という話をしたけど、離散型確率分布について、区間の確率 $P(a\le X\le b)$ は、確率関数 $f_X(x)$ を用いて以下のように表される」

$$P(a\le X\le b)=\sum_{x=a}^b f_X(x)$$

▲「うん。単純に、$a$ 以上 $b$ 以下の確率を全部足すんだよね」

■「この類推で、連続型確率変数についても、次の式が成り立つような関数 $f_X(x)$ を考えたい」

$$P(a\le X\le b)=\int_a^b f_X(x){\rm d}x$$

▲「総和の代わりは積分なんだね」

■「こういう関数を考えると、いろいろ便利なことがあるんだ。この関数は、累積分布関数 $F_X(x)$ とどういう関係があるか分かる？」

▲「$P(-\infty\le X\le x)=F_X(x)$ だから、こうなるんだよね？」

$$F_X(x)=\int_{-\infty}^x f_X(t){\rm d}t$$

■「そうそう。つまり、累積分布関数 $F_X(x)$ は、この $f_X(x)$ の原始関数なんだ」

▲「原始関数ってなんだっけ」

■「積分してできる関数だね。微分と積分は対応しているから、$F_X(x)$ を $x$ で微分すると $f_X(x)$ になる」

$$\frac{\rm d}{{\rm d}x}F_X(x)=f_X(x)$$

▲「この $f_X(x)$ には名前はついてるの？」

■「この $f_X(x)$ のことを確率密度関数と言うよ」

▲「密度？」

■「うん。重さにおける密度に似ているからね。確率密度関数が密度を表して、その積分で得られる確率の値が質量になる」

▲「どう似てるの？」

■「密度が位置によって変わる細い棒みたいなものを考えると、似ている感じが伝わるかなと思うけど、とりあえず今は飛ばそう。そういう名前ということで」

▲「ふーん。まあいいや」

■「ちなみに、離散型確率分布の確率関数のことを、連続型確率変数の確率密度関数に対して確率質量関数と呼ぶこともあるよ」

▲「露骨に例えてるね」

■「さて、0 以上 1 以下の実数を一様に取る確率変数 $X$ に対して、確率密度関数 $f_X(x)$ を考えてみよう」

▲「さっき、累積分布関数 $F_X(x)$ がこうなる話をしたよね」

$$F_X(x) = \begin{cases} 0&(x\le 0)\\ x&(0\le x\le 1)\\ 1&(x>1) \end{cases}$$

■「そうだね。そこから考えてみよう」

▲「これを $x$ で微分すればいいんだよね。微分はそれぞれの部分に分けて考えていいんだよね」

■「うん」

▲「端の部分は定数だから、微分したら 0 だね。傾きだもんね。間の部分は、 $F_X(x)=x$ だから、微分すると $f_X(x)=1$ ？」

■「そうだね」

▲「じゃあ、確率密度関数 $f_X(x)$ はこうだ！」

$$F_X(x) = \begin{cases} 0&(x< 0, 1<x)\\ 1&(0\le x\le 1)\end{cases}$$

■「正解。こうすると、一様分布という感じが伝わってこない？」

▲「確かに、[0, 1] の間で正の定数だから、“出やすさが同じ” って感じが伝わるね。でも 1 っていう値の意味は分かんないけど」

■「確率密度関数を見るときは、個々の値は気にしないほうがいいよ。どの辺りで高くてどの辺りで低いかという、相対的な大小関係が大事だ」

■「確率密度関数 $f_X(x)$ があるとき、それに従う確率変数 $X$ が $a$ 以上 $b$ 以下の値を取る確率 $P(a\le X\le b)$ は、以下の式で与えられるんだったね」

$$\int_a^b f_X(x){\rm d}x$$

▲「こうなるように $f_X(x)$ を作ったんだよね。その方が便利だからって」

■「そうだったね。この式は定積分（区間が決められた積分）だから、この値は面積と解釈することができる」

▲「面積って、なんの？」

■「$f_X(x)$ のグラフと $x$ 軸で囲まれた部分の、$a\le x\le b$ の部分の面積。例えば、今考えている一様分布で、0.2 以上 0.5 以下の値を取る確率は、ここの面積になる」

▲「今の分布だと、長方形になるから計算が簡単だね。横幅 0.3 × 縦幅 1 = 0.3 だよね」

■「うん。また、確率の定義から、全区間での積分は 1 だ。これは、 $f_X(x)$ のグラフと $x$ 軸で囲まれた部分全体の面積が 1 であることを表す」

▲「面積で見られるのは分かりやすくて良いね」

■「確率密度関数を使えば、こんな変な形の分布でも、$f_X(x)$ のグラフを見るだけでどういう分布なのか想像できる」

▲「そういえば、この一様分布にも名前とか記号とかあるんだよね？」

■「うん。$a$ 以上 $b$ 以下の実数を一様に取る確率変数の分布を、連続一様分布と呼び、$U_c(a,b)$ と書くことがあるよ。今回だと $U_c(0,1)$ だね」

▲「c は連続って意味？」

■「連続の英語 “continuous” だね。連続一様分布は英語で “continuous uniform distribution”」

▲「この場合も、$\sim$ の記号を使ってこう書けるんだよね」

$$X\sim U_c(a,b)$$

■「うん。また、連続一様分布の中でも特に $U_c(0,1)$ のことを標準一様分布と呼ぶことがあるよ」

▲「確率密度関数も 0 以上 1 以下なの？」

■「いや、確率密度関数は 0 以上ではあるけど 1 以下とは限らない」

▲「なんで？」

■「さっきも言ったように、確率密度関数では、$f_X(x)$ の値自体にはあまり意味がなくて、積分した値が重要なんだ。だから、全区間での積分が 1 になるという条件があれば、1 より大きい値を取ってもいい」

$$f_X(x)\ge 0$$

$$\int_{-\infty}^\infty f_X(x){\rm d}x=1$$

▲「どういうときに 1 を超えるの？」

■「例えば、0 以上 0.1 以下の値を一様に取る分布 $U_c(0, 0.1)$ を考えよう。この場合、確率密度関数 $f_X(x)$ はどうなる？」

▲「えっと、どうせ [0, 0.1] の区間では定数だから、長方形の面積が 1 になればいいんだよね。横の長さが 0.1 だから、縦の長さは 10 ？　ってことは、[0, 0.1] で 10、他で 0 ってこと？」

■「そう。こんなふうに、$f_X(x)$ の値が 1 を超えることはあり得る。ただし、全体の面積は必ず 1 だ」

▲「確かに 10 になってるけど面積は 1 だね」

▲「同じ確率密度関数の中で値の大小関係に意味があるって話だったけど、さっきの図みたいに $U_c(0,1)$ での $f_X(0.05)$ よりも $U_c(0, 0.1)$ での $f_X(0.05)$ の方が値が大きいっていうのは意味あるの？」

■「異なる分布間での、ある値や区間の確率の大小についてだね。それは尤度（ゆうど）という考え方で、非常に重要だけど、今はちょっと置いておこう」

▲「ちょっとぐらい教えてよー」

■「そうだな……　確率変数 $X$ が従う分布が $U_c(0,1)$ か $U_c(0,0.1)$ のどっちかだけど、どっちなのかは分からないとする」

▲「真の分布が不明の確率変数 $X$ があるってこと？」

■「そう。そして、どちらかを考えるために、$X$ の値を 1 つ得たとする。このとき、$X=0.7$ になったらどう思う？」

▲「どう考えても $U_c(0, 1)$ の方だよね。$U_c(0, 0.1)$ だと、$X=0.7$ は出ないもん」

■「そうだね。じゃあ、$X=0.05$ だったらどう思う？」

▲「どう思うって、どっちもあるから分かんないよ」

■「じゃあ、もっと情報が欲しいと思って、5 回値を得たとしよう。そして、0.05, 0.02, 0.04, 0.08, 0.06 の 5 つを得たとする。どう思う？」

▲「うーん、$U_c(0,0.1)$ っぽいね」

■「どうして？」

▲「えっと、どっちの分布でもそういう値が出てくることはあるけど、仮に真の分布が $U_c(0,1)$ だとすると、5 回連続で 0.1 以下の値が出るっていうのは、かなり珍しいよね。だから、超運がいいか、真の分布が $U_c(0,0.1)$ かのどっちかってことになるから、$U_c(0,0.1)$ の方がそれっぽいかなあ」

■「それがまさに尤度の考え方。”尤” の字は “尤もらしい（もっともらしい）” という字で、『得られた結果（実際に得た $X$ の値）が得られる確率が最も高い仮定がもっともらしいよね』という考え方を最尤推定（さいゆうすいてい）というよ」

▲「なるほど、真の分布の候補が色々あるときに使えるんだね」

■「そうだね。今の議論はだいぶ簡略化しているから、詳しいことはまたの機会に考えよう」

まとめ

■「今日の話をまとめてみよう」

▲「えっと、確率変数 $X$ について考えていて、$X$ には “ある値を取りやすいか” みたいな値が決まってるんだよね」

■「うん」

▲「で、その値は、離散型確率変数の場合は確率関数（確率質量関数） $f_X(x)$ になって、これは $x$ が整数のときにしか値を持たない感じなんだよね」

■「そうだね。特に、$x$ が非負整数のときにしか値を持たない（他の整数では 0 である）場合が多いね」

▲「確率関数 $f_X(x)$ は、確率だから次の性質が成り立つよ」

$$0\le f_X(x)\le 1$$

$$\sum_{x=-\infty}^\infty f_X(x)=1$$

$$P(a\le X\le b)=\sum_{a}^b f_X(x)$$

▲「また、累積分布関数 $F_X(x)$ っていうのがあって、これは $f_X(x)$ の累積和で、$P(X\le x)$ の確率を表しているよ」

$$F_X(x)=P(X\le x)$$

$$F_X(x)=\sum_{t=-\infty}^x f_X(t)$$

$$f_X(x)=F_X(x)-F_X(x-1)$$

$$P(a\le X\le b)=\sum_{x=a}^b f_X(x)=F_X(b)-F_X(a-1)$$

■「よくまとまっているね。連続型確率変数の場合はどうなる？」

▲「連続型確率変数 $X$ については、確率密度関数 $f_X(x)$ が定義されて、次の性質が成り立つんだよね？」

$$f_X(x)\ge 0$$

$$\int_{-\infty}^\infty f_X(x){\rm d}x=1$$

$$P(a\le X\le b)=\int_{a}^b f_X(x){\rm d}x$$

■「そうだね。ここで $f_X(x)\le 1$ という条件が無いのがポイントだね」

▲「で、離散型確率変数の場合と同じように、累積分布関数 $F_X(x)$ があって、こういう性質が成り立つんだよね」

$$F_X(x)=P(X\le x)$$

$$F_X(x)=\int_{-\infty}^x f_X(t){\rm d}t$$

$$f_X(x)=\frac{\rm d}{{\rm d}x}F_X(x)$$

$$P(a\le X\le b)=\int_{a}^b f_X(x){\rm d}x=F_X(b)-F_X(a)$$

■「良いね。ちなみに、積分は難しいから、『確率密度関数 $f_X(x)$ は簡単に表現できるけど累積分布関数 $F_X(x)$ は表現できない』みたいなことがあるよ。その意味でも、確率密度関数は重要だね」

▲「へー、そんなことあるんだ」

■「難しい関数が沢山出てくるからね」

▲「特定の範囲内の値の取りやすさが同じような確率変数の確率分布を、離散型一様分布や連続型一様分布と呼んで、それぞれ $U_d(a,b)$, $U_c(a,b)$ という記号がついてるんだよね」

■「うん。一様分布については、記号の付け方は書籍によって異なることが多いけどね」

▲「で、ある確率変数 $X$ がこの分布に従うよっていうのは、分布の記号を使ってこう書くんだよね」

$$X\sim U_c(a,b)$$

■「そうだね」

▲「特別な名前がある確率分布っていっぱいあるの？」

■「うん。ざっと 10 以上はあるかな。幾何分布、ポアソン分布、二項分布、正規分布、指数分布などなど……」

▲「えー、多いね」

■「色々な分布の話もしたいけど、次回は期待値や分散の話になるかな」

▲「お、競プロで『期待値の線形性』とか言って出てくるやつだね」

■「おっと、線型性の話をするならそもそも『独立』の話が必要かな。順番が難しいね」

▲「まあ、そのへんは上手いことやってよ」

■「微積分が出てきて難しいと思うけど、ちゃんと復習しておいてね」

▲「お兄ちゃん、あたしは多項式の微積分程度では音を上げないよ」

■「じゃあ、これからテイラー展開と置換積分が出てくるから予習しておいてもらおうかな」

▲「えー……」

Pocket