バックプロパゲーション（２） - 工場統計力学（建設中！）

バックプロパゲーションを導く時に最初に用いたのは、誤差 $E$ を小さくするために誤差 $E$ をシナプス係数で微分して得た傾きを元にシナプスの変化分を決定しようとする考え方でした。これを勾配法と言います。１ニューロンのパーセプトロンの時に用いた標準デルタ則（「バックプロパゲーションに向けて（３）」の式(23)参照。ここでは番号を振り直して式(26)とする）

$\Delta{s_i}=a(r-y)x_i$ ・・・・(26)

を勾配法で基礎づけることが出来ないか試みてみます。

「バックプロパゲーションに向けて（３）」で

私が特に気になるのは、式(21)の学習則では $y(1-y)$ があるので、 $y$ が０に近かったり１に近かったりすると $y(1-y)$ の値が小さくなり、その結果 $\Delta{s_i}$ も小さくなる、ということです。そしてシグモイド関数のグラフ

グラフ１

を見れば分かるように、 $u=0$ 付近以外は $y$ は０に近かったり１に近かったりするのです。つまり、 $u$ がゼロから大きく離れていればいるほど $\Delta{s_i}$ は小さくなるわけです。もし、本来 $u$ が正でなければならないのに現状では０よりマイナス方向に大きくズレていたり、逆に本来 $u$ が負でなければならないのに現状では０よりプラス方向に大きくズレている場合は、 $u$ の値を変更するために $\Delta{s_i}$ を大きくする必要があるのに、式(21)の学習則では逆に小さくなってしまいます。これでは本当に学習が収束するのか疑問です。また、収束したとしても標準デルタ則（式(23)）よりも収束に時間がかかるのではないか、と心配になります。

と述べたようにシグモイド関数を用いた誤差では、本来 $u$ の値が大きく外れていた場合でも誤差が小さく出る、という点が問題です。そこで誤差 $E$ に $u$ そのものを登場させることを考えます。しかし、例えば $r=1$ の時 $u$ は $u{\ge}0$ ならばいくら大きくても $y=1$ なので（今は $y=1(u)$ を使うことを考えます） $u$ そのものを誤差に用いることは出来ません。逆に $r=0$ の場合は $u<0$ ならば $u$ の絶対値は不問になります。このように考えて誤差 $E$ を

$E=(y-r)u$ ・・・・(27)

とおいてみます。このように $E$ を定義すると $r=y$ の場合は誤差はゼロになりますし、 $r\neq{y}$ の場合、もし $r=1$ 、 $y=0$ ならば $u<0$ で $E=-u>0$ となります。逆にもし $r=0$ 、 $y=1$ ならば $u{\ge}0$ で $E=u{\ge}0$ となりますので、全ての場合に $E{\ge}0$ となります。問題は $u=0$ で $r=0$ の時は $y=1$ となるので誤差があってしかるべきなのにもかかわらず式(27)によれば $E=0$ になってしまう点です。そこで $u=0$ の場合を除外して考察します。 $u>0$ の場合、あるいは $u<0$ の場合は $y$ は1か0ですがいずれの場合も $u$ の変化に影響されないと考えることが出来ます。よって式(27)を $s_i$ （ $x_i$ に対応するシナプス係数）で微分すると

$\frac{\partial{E}}{\partial{s_i}}=\frac{\partial{E}}{\partial{u}}\cdot\frac{\partial{u}}{\partial{s_i}}$
$\frac{\partial{E}}{\partial{s_i}}=(y-r)\cdot{x_i}$