確率変数の和の個数の分布 - 工場統計力学（建設中！）

ある現象が繰り返し発生するとします。その現象は、前に起きた時刻からある確率分布に従う時間後に次の発生があるものとします。そしてその確率分布は変わらないものとします。現象のある発生から次の発生までの間隔を確率変数 $T$ で表すことにします。時刻 $t=0$ の時に発生があるとします。次の発生がある時刻を $T(1)$ で表すことにします。 $T(1)$ は確率的に変動するので $T(1)$ は確率変数です。 $n$ 回目の発生のある時刻を $T(n)$ で表すことにします。 $T$ と同一の分布を持つ確率変数 $T_k$ （ただし、 $k=1,2,...$ ）を考えると

$T(n)=\Bigsum_{k=1}^nT_k$ ・・・・(1)

と表すことが出来ます。確率変数 $T$ の平均を $t_a$ 、標準偏差を $\sigma$ で表すことにします。すると式(1)は同一分布の確率変数の和になりますから $T(n)$ の平均は

$nt_a$ ・・・・(2)

標準偏差は

$\sigma\sqrt{n}$ ・・・・(3)

になります。さらに、 $n$ が大きくなると統計学で有名な中心極限定理により、 $T(n)$ の分布は正規分布に近づきます。これは $n$ の値を非常に大きくとっていますが、 $n$ を固定した場合の $T(n)$ の値の分布について述べています。

今度は、ある時刻 $t$ を決めて、それまでに何回この現象が発生したかを考えます。 $T$ が確率変数なので発生した回数は確率的に変動します。 $t$ の値を充分大きくした時、この分布はどのような分布になるでしょうか？　これはつまり

$T(n){\le}t$ ・・・・(4)

かつ

$T(n+1)>t$ ・・・・(5)

であるような $n$ の値の分布です。この分布を求めることが、私がここで解きたいと思っている問題です。

まず $n$ を固定して考えます。 $T(n)$ が $t$ から $t+dt$ の間にある確率を

$f(t,n)dt$ ・・・・(6)

で表すことにします。 $f(t,n)$ は $t$ についての確率密度になります。 $n$ の値を大きくしていくと $f(t,n)$ は正規分布に近づきます。さてここで、平均ゼロ、標準偏差１の正規分布を $\phi(\cdot)$ で表すことにします。つまり

$\phi(x)=\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{x^2}{2}\right)$ ・・・・(7)

です。 $T(n)$ の平均と標準偏差はそれぞれ式(2)(3)で与えられますから、

$f(t,n)\approx\frac{1}{\sigma\sqrt{n}}\phi\left(\frac{t-nt_a}{\sigma\sqrt{n}}\right)$ ・・・・(8)

となります。 $\phi(\cdot)$ の前の

$\frac{1}{\sigma\sqrt{n}}$

は、確率密度の規格化のために必要な係数です。さて、ここで $t$ の代わりに新しい変数

$n_a=\frac{t}{t_a}$ ・・・・(9)

を考えます。そして $f(t,n)$ の代わりに $n_a$ に関する確率密度 $g(n_a,n)$ を考えます。すると

$f(t,n)|dt|=g(n_a,n)|dn_a|$ ・・・・(10)

となります。一方、式(9)から

$dn_a=\frac{dt}{t_a}$ ・・・・(11)

なので

$g(n_a,n)dn_a=g(n_a,n)\frac{dt}{t_a}$

となるのでこの式と式(10)から

$g(n_a,n)=f(t,n)t_a$ ・・・・(12)

となります。式(12)と式(8)から

$g(n_a,n)\approx\frac{t_a}{\sigma\sqrt{n}}\phi\left(\frac{t-nt_a}{\sigma\sqrt{n}}\right)$
$g(n_a,n)\approx\frac{t_a}{\sigma\sqrt{n}}\phi\left(\frac{(n_a-n)t_a}{\sigma\sqrt{n}}\right)$ ・・・・(13)

さらに $n_a$ の代わりに

$n=n_a+a\sqrt{n_a}\frac{\sigma}{t_a}$ ・・・・(14)

で定義される $a$ を考えます。 $a$ に関する確率密度 $h(a,n)$ を考えます。

$g(n_a,n)|dn_a|=h(a,n)|da|$

となりますから

$h(a,n)=\left|\frac{dn_a}{da}\right|g(n_a,n)$ ・・・・(15)

となります。式(14)から

$dn=dn_a+\sqrt{n_a}\cdot\frac{\sigma}{t_a}da+a\frac{1}{2\sqrt{n_a}}\frac{\sigma}{t_a}dn_a$

今は $n$ を固定にして確率密度を考えていますから $dn=0$ 。よって

$dn_a+\sqrt{n_a}\frac{\sigma}{t_a}da+a\frac{1}{2\sqrt{n_a}}\frac{\sigma}{t_a}dn_a=0$
$\left(1+\frac{a\sigma}{2t_a\sqrt{n_a}}\right)dn_a+\sqrt{n_a}\frac{\sigma}{t_a}da=0$
$\left(1+\frac{a\sigma}{2t_a\sqrt{n_a}}\right)dn_a=-\sqrt{n_a}\frac{\sigma}{t_a}da$
$\frac{dn_a}{da}=-\frac{\sqrt{n_a}\frac{\sigma}{t_a}}{1+\frac{a\sigma}{2t_a\sqrt{n_a}}}$
$\frac{dn_a}{da}=-\frac{\sigma\sqrt{n_a}}{t_a+\frac{a\sigma}{2\sqrt{n_a}}}$ ・・・・(16)

一方 $g(n_a,n)$ のほうは、式(13)に式(14)を代入して

- $=\frac{t_a}{\sigma\sqrt{n}}\phi\left(\frac{-a\sigma\sqrt{n_a}}{\sigma\sqrt{n}}\right)$
- $=\frac{t_a}{\sigma\sqrt{n}}\phi\left(\frac{-a\sqrt{n_a}}{\sqrt{n}}\right)$
- $=\frac{t_a}{\sigma\sqrt{n}}\phi\left(-a\sqrt{\frac{n_a}{n}}\right)$

よって

$g(n_a,n)\approx\frac{t_a}{\sigma\sqrt{n}}\phi\left(-a\sqrt{\frac{n_a}{n}}\right)$ ・・・・(17)

式(15)に(16)(17)を代入して

$h(a,n)\approx\frac{\sigma\sqrt{n_a}}{t_a+\frac{a\sigma}{2\sqrt{n_a}}}\frac{t_a}{\sigma\sqrt{n}}\phi\left(-a\sqrt{\frac{n_a}{n}}\right)$
$h(a,n)\approx\frac{t_a}{t_a+\frac{a\sigma}{2\sqrt{n_a}}}\sqrt{\frac{n_a} {n}}\phi\left(-a\sqrt{\frac{n_a}{n}}\right)$ ・・・・(18)

ここで $a$ を一定にして $n\rightar\infty$ とすると式(14)から $n_a\rightar\infty$ 。よって

$\frac{t_a}{t_a+\frac{a\sigma}{2\sqrt{n_a}}}\rightar{1}$ ・・・・(19)

また

$\frac{n_a}{n}=\frac{n_a}{n_a+a\sqrt{n_a}\frac{\sigma}{t_a}}=\frac{1}{1+a\frac{\sigma}{t_a\sqrt{n_a}}}$

なので

$\frac{n_a}{n}\rightar{1}$ ・・・・(20)

よって式(18)の右辺は

$\rightar\phi(-a)$

となります。また、正規分布による近似は中心極限定理により $n\rightar\infty$ で正確になりますので結局

$h(a,n)\rightar\phi(a)$ ・・・・(21)

となります。式(21)を見ると $n_a$ に依存することなく $a$ は平均ゼロ、標準偏差１の正規分布で分布することが分かります。ということは $t=n_at_a$ にも依存しないことになります。よって $t$ を固定した場合にも $a$ は平均ゼロ、標準偏差１の正規分布で分布します。ここで式(14)

$n=n_a+a\sqrt{n_a}\frac{\sigma}{t_a}$ ・・・・(14)

をもう一度考えると、 $t$ を固定すれば $n_a$ を固定することになるので、 $a$ が平均ゼロ、標準偏差１の正規分布で分布することから考えて、 $n$ は平均 $n_a$ 、標準偏差 $\sigma\sqrt{n_a}/t_a$ の正規分布で分布することが分かります。