確率変数の和の個数の分布

ある現象が繰り返し発生するとします。その現象は、前に起きた時刻からある確率分布に従う時間後に次の発生があるものとします。そしてその確率分布は変わらないものとします。現象のある発生から次の発生までの間隔を確率変数Tで表すことにします。時刻t=0の時に発生があるとします。次の発生がある時刻をT(1)で表すことにします。T(1)は確率的に変動するのでT(1)は確率変数です。n回目の発生のある時刻をT(n)で表すことにします。Tと同一の分布を持つ確率変数T_k(ただし、k=1,2,...)を考えると

  • T(n)=\Bigsum_{k=1}^nT_k・・・・(1)

と表すことが出来ます。確率変数Tの平均をt_a標準偏差\sigmaで表すことにします。すると式(1)は同一分布の確率変数の和になりますからT(n)の平均は

  • nt_a・・・・(2)

標準偏差

  • \sigma\sqrt{n}・・・・(3)

になります。さらに、nが大きくなると統計学で有名な中心極限定理により、T(n)の分布は正規分布に近づきます。これはnの値を非常に大きくとっていますが、nを固定した場合のT(n)の値の分布について述べています。


今度は、ある時刻tを決めて、それまでに何回この現象が発生したかを考えます。Tが確率変数なので発生した回数は確率的に変動します。tの値を充分大きくした時、この分布はどのような分布になるでしょうか? これはつまり

  • T(n){\le}t・・・・(4)

かつ

  • T(n+1)>t・・・・(5)

であるようなnの値の分布です。この分布を求めることが、私がここで解きたいと思っている問題です。


まずnを固定して考えます。T(n)tからt+dtの間にある確率を

  • f(t,n)dt・・・・(6)

で表すことにします。f(t,n)tについての確率密度になります。nの値を大きくしていくとf(t,n)正規分布に近づきます。さてここで、平均ゼロ、標準偏差1の正規分布\phi(\cdot)で表すことにします。つまり

  • \phi(x)=\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{x^2}{2}\right)・・・・(7)

です。T(n)の平均と標準偏差はそれぞれ式(2)(3)で与えられますから、

  • f(t,n)\approx\frac{1}{\sigma\sqrt{n}}\phi\left(\frac{t-nt_a}{\sigma\sqrt{n}}\right)・・・・(8)

となります。\phi(\cdot)の前の

  •  \frac{1}{\sigma\sqrt{n}}

は、確率密度の規格化のために必要な係数です。さて、ここでtの代わりに新しい変数

  • n_a=\frac{t}{t_a}・・・・(9)

を考えます。そしてf(t,n)の代わりにn_aに関する確率密度g(n_a,n)を考えます。すると

  • f(t,n)|dt|=g(n_a,n)|dn_a|・・・・(10)

となります。一方、式(9)から

  • dn_a=\frac{dt}{t_a}・・・・(11)

なので

  • g(n_a,n)dn_a=g(n_a,n)\frac{dt}{t_a}

となるのでこの式と式(10)から

  • g(n_a,n)=f(t,n)t_a・・・・(12)

となります。式(12)と式(8)から

  • g(n_a,n)\approx\frac{t_a}{\sigma\sqrt{n}}\phi\left(\frac{t-nt_a}{\sigma\sqrt{n}}\right)
  • g(n_a,n)\approx\frac{t_a}{\sigma\sqrt{n}}\phi\left(\frac{(n_a-n)t_a}{\sigma\sqrt{n}}\right)・・・・(13)

さらにn_aの代わりに

  • n=n_a+a\sqrt{n_a}\frac{\sigma}{t_a}・・・・(14)

で定義されるaを考えます。aに関する確率密度h(a,n)を考えます。

  • g(n_a,n)|dn_a|=h(a,n)|da|

となりますから

  • h(a,n)=\left|\frac{dn_a}{da}\right|g(n_a,n)・・・・(15)

となります。式(14)から

  • dn=dn_a+\sqrt{n_a}\cdot\frac{\sigma}{t_a}da+a\frac{1}{2\sqrt{n_a}}\frac{\sigma}{t_a}dn_a

今はnを固定にして確率密度を考えていますからdn=0。よって

  • dn_a+\sqrt{n_a}\frac{\sigma}{t_a}da+a\frac{1}{2\sqrt{n_a}}\frac{\sigma}{t_a}dn_a=0
  • \left(1+\frac{a\sigma}{2t_a\sqrt{n_a}}\right)dn_a+\sqrt{n_a}\frac{\sigma}{t_a}da=0
  • \left(1+\frac{a\sigma}{2t_a\sqrt{n_a}}\right)dn_a=-\sqrt{n_a}\frac{\sigma}{t_a}da
  • \frac{dn_a}{da}=-\frac{\sqrt{n_a}\frac{\sigma}{t_a}}{1+\frac{a\sigma}{2t_a\sqrt{n_a}}}
  • \frac{dn_a}{da}=-\frac{\sigma\sqrt{n_a}}{t_a+\frac{a\sigma}{2\sqrt{n_a}}}・・・・(16)

一方g(n_a,n)のほうは、式(13)に式(14)を代入して

  • g(n_a,n)\approx\frac{t_a}{\sigma\sqrt{n}}\phi\left(\frac{-a\sqrt{n_a}\frac{\sigma}{t_a}t_a}{\sigma\sqrt{n}}\right)
    • =\frac{t_a}{\sigma\sqrt{n}}\phi\left(\frac{-a\sigma\sqrt{n_a}}{\sigma\sqrt{n}}\right)
    • =\frac{t_a}{\sigma\sqrt{n}}\phi\left(\frac{-a\sqrt{n_a}}{\sqrt{n}}\right)
    • =\frac{t_a}{\sigma\sqrt{n}}\phi\left(-a\sqrt{\frac{n_a}{n}}\right)

よって

  • g(n_a,n)\approx\frac{t_a}{\sigma\sqrt{n}}\phi\left(-a\sqrt{\frac{n_a}{n}}\right)・・・・(17)

式(15)に(16)(17)を代入して

  • h(a,n)\approx\frac{\sigma\sqrt{n_a}}{t_a+\frac{a\sigma}{2\sqrt{n_a}}}\frac{t_a}{\sigma\sqrt{n}}\phi\left(-a\sqrt{\frac{n_a}{n}}\right)
  • h(a,n)\approx\frac{t_a}{t_a+\frac{a\sigma}{2\sqrt{n_a}}}\sqrt{\frac{n_a} {n}}\phi\left(-a\sqrt{\frac{n_a}{n}}\right)・・・・(18)

ここでaを一定にしてn\rightar\inftyとすると式(14)からn_a\rightar\infty。よって

  • \frac{t_a}{t_a+\frac{a\sigma}{2\sqrt{n_a}}}\rightar{1}・・・・(19)

また

  • \frac{n_a}{n}=\frac{n_a}{n_a+a\sqrt{n_a}\frac{\sigma}{t_a}}=\frac{1}{1+a\frac{\sigma}{t_a\sqrt{n_a}}}

なので

  • \frac{n_a}{n}\rightar{1}・・・・(20)

よって式(18)の右辺は

  • \rightar\phi(-a)

となります。また、正規分布による近似は中心極限定理によりn\rightar\inftyで正確になりますので結局

  • h(a,n)\rightar\phi(a)・・・・(21)

となります。式(21)を見るとn_aに依存することなくaは平均ゼロ、標準偏差1の正規分布で分布することが分かります。ということはt=n_at_aにも依存しないことになります。よってtを固定した場合にもaは平均ゼロ、標準偏差1の正規分布で分布します。ここで式(14)

  • n=n_a+a\sqrt{n_a}\frac{\sigma}{t_a}・・・・(14)

をもう一度考えると、tを固定すればn_aを固定することになるので、aが平均ゼロ、標準偏差1の正規分布で分布することから考えて、nは平均n_a標準偏差\sigma\sqrt{n_a}/t_a正規分布で分布することが分かります。