1個のニューロンの学習(7)

\vec{s}_k\cdot\vec{P}(k)について考えます。\vec{P}(k)\vec{s}_kの時に不正解であったパターンなので、もしr=1であればy=0。よって「1個のニューロンの学習(5)」の式(13)

  • y=1\left(\vec{s}\cdot\vec{x}\right)・・・・(13)

から

  • 1\left(\vec{s}_k\cdot\vec{P}(k)\right)=0

よって

  • \vec{s}_k\cdot\vec{P}(k)<0

ここでr=1なので\vec{P}\in{I^+}。よって\vec{Q}(k)=\vec{P}(k)。よって

  • \vec{s}_k\cdot\vec{Q}(k)<0

となります。逆にr=0であればy=1。よって式(13)から

  • \vec{s}_k\cdot\vec{P}(k){\ge}0

ここでr=0なので\vec{P}\in{I^-}。よって\vec{Q}(k)=-\vec{P}(k)。よって

  • \vec{s}_k\cdot\vec{Q}(k){\le}0

となります。よってrの値に関わらず

  • \vec{s}_k\cdot\vec{Q}(k){\le}0・・・・(21)

となります。


ここで

  • \left(\vec{s}_{k+1}-A\vec{S}\right)^2

を計算します。ただしベクトル\vec{s}_{k+1}-A\vec{S}の2乗は、自分自身との内積

  • \left(\vec{s}_{k+1}-A\vec{S}\right)\cdot\left(\vec{s}_{k+1}-A\vec{S}\right)

つまり\vec{s}_{k+1}-A\vec{S}の長さを意味するものとします。またAは任意の定数とします。「1個のニューロンの学習(6)」の式(20)

  • \vec{s}_{k+1}=\vec{s}_k+a\vec{Q}(k)・・・・(20)

を用いると

  • \left(\vec{s}_{k+1}-A\vec{S}\right)^2
    • =\left(\vec{s}_k+a\vec{Q}(k)-A\vec{S}\right)^2
    • =\left(\vec{s}_k-A\vec{S}\right)^2+2a\left(\vec{s}_k-A\vec{S}\right)\cdot\vec{Q}(k)+a^2\vec{Q}(k)^2
    • =\left(\vec{s}_k-A\vec{S}\right)^2+2a\vec{s}_k\cdot\vec{Q}(k)-2aA\vec{S}\cdot\vec{Q}(k)+a^2\vec{Q}(k)^2

よって

  • \left(\vec{s}_{k+1}-A\vec{S}\right)^2
    • =\left(\vec{s}_k-A\vec{S}\right)^2+2a\vec{s}_k\cdot\vec{Q}(k)-2aA\vec{S}\cdot\vec{Q}(k)+a^2\vec{Q}(k)^2・・・・(22)

式(21)(22)とa>0から

  • \left(\vec{s}_{k+1}-A\vec{S}\right)^2{\le}\left(\vec{s}_k-A\vec{S}\right)^2-2aA\vec{S}\cdot\vec{Q}(k)+a^2\vec{Q}(k)^2・・・・(23)

式(23)の左辺は\vec{s}_{k+1}A\vec{S}の差の長さの2乗であり、右辺の第1項は\vec{s}_kA\vec{S}の差の長さの2乗です。\vec{s}_{k+1}A\vec{S}の差の長さの2乗のほうがA\vec{S}の差の長さの2乗より小さいことを示すことが出来れば、ニューロン\vec{s}を変化させるたびに\vec{s}A\vec{S}に近づくことが言え、最終的に学習が完了出来ることの証明に一歩近づきます。そのためには

  • -2aA\vec{S}\cdot\vec{Q}(k)+a^2\vec{Q}(k)^2・・・・(24)

kの値に関わらず負であることを言わなければなりません。そこで、\vec{Q}(k)\vec{v}(i)のいずれかであることに注意して、\vec{v}(i)^2のうち最も大きなものを\betaで表すことにします。つまり

  • \beta=\max_{i=1,...,m}\vec{v}(i)^2・・・・(25)

です。そうすると当然

  • \beta{\ge}\vec{Q}(k)^2・・・・(26)

になります。また、\vec{S}\cdot\vec{v}(i)のうち最も小さなものを\gammaで表すことにします。つまり

  • \gamma=\min_{i=1,...,m}\vec{S}\cdot\vec{v}(i)・・・・(27)

です。そうすると当然

  • \gamma{\le}\vec{S}\cdot\vec{Q}(k)・・・・(28)

になります。よって

  • -2aA\vec{S}\cdot\vec{Q}(k)+a^2\vec{Q}(k)^2{\le}-2aA\gamma+a^2\beta・・・・(29)

になります。