ボルツマンマシンの勉強中(3)

式(11)

  • P(x_i=1)=\frac{1}{1+\exp\left(-\frac{\Delta{E_i}}{T}\right)}・・・・(11)

の意味を考えてみましょう。\Delta{E}_i=0の時は、式(11)からP(x_i=1)=1/2となります。\Delta{E}_i=0ということは、E_i^+=E_i^-ということです。つまり、ニューロンiの出力が+1でも-1でも全体のエネルギーは変わらない、という場合です。この場合は、ニューロンiの出力が+1になる確率は1/2になる、というのは道理に合っていると思います。\Delta{E}_i>0の場合は式(11)からP(x_i=1)>1/2になります。 \Delta{E}_i>0ということはE_i^->E_i^+ということなので、ボルツマンマシンはエネルギーの小さいE_i^+の状態になり易くなります。つまり、ニューロンiの出力が+1になる確率は1/2より大きくなる、ということをこの式は示しています。\Delta{E}_i<0の場合は式(11)からP(x_i=1)<1/2になることも同様に理解出来ます。ここでT=1の場合の\Delta{E}_i P(x_i=1)の関係をグラフに表すと以下のようになります。



次に温度Tの役割について調べてみましょう。T=0.2,\,1,\,5の3つの場合のグラフを作ると以下のようになります。

温度が低い場合(T=0.2)、\Delta{E}_iがゼロ付近の狭い個所を除いて、確率P(x_i=1)はほぼ1か0になります。温度が高い場合(T=5)、\Delta{E}_iの変化によるP(x_i=1)の変化はよりなだらかになります。ということは、\Delta{E}_i>0であってもニューロンiの出力x_iが-1になる確率がより高くなり、逆に、\Delta{E}_i<0であってもx_iが+1になる確率もより高くなります。一言で言えば、より確率的な変動が大きくなり、秩序がくずれる傾向にあります。そして温度Tを無限大にすると、\Delta{E}_iの値にかかわらず確率P(x_i=1)の値は1/2になります。つまり出力x_iは1/2の確率で+1、1/2の確率で-1になります。つまり、まったく無秩序になります。これらの現象は温度の性質として妥当なものです。ところで、ここまでの議論はエネルギー関数E(x)の形を不問にして進めてきました。ということは以上の性質はE(x)の形に依存しないことになります。


それではE(x)の形はどうなるのか、といいますと、これはホップフィールド・ネットワークと同じものを使用します。私が以前ホップフィールド・ネットワークを勉強した際には(ホップフィールドネットワーク(2)

  • E(x)=-\frac{1}{2}\Bigsum_{i=1}^n\Bigsum_{j=1}^ns_{ij}x_ix_j・・・・(14)

というものを使いました。これを使うことにします。ただしnニューロンの数であり、s_{ij}は、ニューロンiニューロンjの出力x_jを入力として受け取る際の、その入力に対応するシナプス係数です。また、ホップフィールド・ネットワークと同様に

  • s_{ij}=s_{ji}・・・・(15)
  • s_{ii}=0・・・・(16)

という条件を課します。式(14)を用いてE_i^+E_i^-を計算し、次に\Delta{E}_iを計算しようと思います。しかし式(14)のままでは添字iがぶつかってしまうので、式(14)を

  • E(x)=-\frac{1}{2}\Bigsum_{k=1}^n\Bigsum_{j=1}^ns_{kj}x_kx_j・・・・(17)

と書き直します。式(17)を変形して

  • E(x)=-\frac{1}{2}\Bigsum_{k=1}^n\left(\Bigsum_{j=1,j\neq{i}}^ns_{kj}x_kx_j+s_{ki}x_kx_i\right)
  • E(x)=-\frac{1}{2}\left[\Bigsum_{k=1,k\neq{i}}^n\left(\Bigsum_{j=1,j\neq{i}}^ns_{kj}x_kx_j+s_{ki}x_kx_i\right)+ \left(\Bigsum_{j=1,j\neq{i}}^ns_{ij}x_ix_j+s_{ii}x_ix_i\right)\right]・・・・(18)

ここで式(15)(16)を用いると

  • E(x)=-\frac{1}{2}\left[\Bigsum_{k=1,k\neq{i}}^n\left(\Bigsum_{j=1,j\neq{i}}^ns_{kj}x_kx_j+s_{ki}x_kx_i\right)+ \Bigsum_{j=1,j\neq{i}}^ns_{ij}x_ix_j \right]
  • E(x)=-\frac{1}{2}\left[\Bigsum_{k=1,k{\neq}i}^n\Bigsum_{j=1,j{\neq}i}^ns_{kj}x_kx_j+\Bigsum_{k=1,k{\neq}i}^ns_{ki}x_kx_i+\Bigsum_{j=1,j{\neq}i}^ns_{ij}x_ix_j\right]
  • E(x)=-\frac{1}{2}\left[\Bigsum_{k=1,k{\neq}i}^n\Bigsum_{j=1,j{\neq}i}^ns_{kj}x_kx_j+2\Bigsum_{j=1,j{\neq}i}^ns_{ij}x_ix_j \right]
  • E(x)=-\frac{1}{2}\Bigsum_{k=1,k{\neq}i}^n\Bigsum_{j=1,j{\neq}i}^ns_{kj}x_kx_j -\Bigsum_{j=1,j{\neq}i}^ns_{ij}x_ix_j・・・・(19)

となります。ここで式(16)を考慮すると(19)は

  • E(x)=-\frac{1}{2}\Bigsum_{k=1,k{\neq}i}^n\Bigsum_{j=1,j{\neq}i}^ns_{kj}x_kx_j -\Bigsum_{j=1 }^ns_{ij}x_ix_j・・・・(20)

と書くことが出来ます。さて、式(20)にx_i=1を代入すると

  • E_i^+=\frac{1}{2}\Bigsum_{k=1,k{\neq}i}^n\Bigsum_{j=1,j{\neq}i}^ns_{kj}x_kx_j -\Bigsum_{j=1 }^ns_{ij} x_j・・・・(21)

式(20)にx_i=-1を代入すると

  • E_i^-=\frac{1}{2}\Bigsum_{k=1,k{\neq}i}^n\Bigsum_{j=1,j{\neq}i}^ns_{kj}x_kx_j +\Bigsum_{j=1 }^ns_{ij} x_j・・・・(22)

式(10)

  • \Delta{E}_i=E_i^--E_i^+・・・・(10)

に(21)(22)を代入して

  • \Delta{E}_i=2\Bigsum_{j=1 }^ns_{ij} x_j・・・・(23)

となります。