バックプロパゲーション（３） - 工場統計力学（建設中！）

「バックプロパゲーション（２）」では勾配法によって１ニューロンのパーセプトロンの標準デルタ則を導くことが出来ました。しかし、このことが「勾配法を用いれば学習が完了する」ということを意味しているわけではないと私は思います。以下、私が現在抱いている疑問点を述べていきます。

簡単化のために今後の考察も「バックプロパゲーション（２）」で考察した１ニューロンに限定します。まずバックプロパゲーションでは誤差 $E$ を

$E=(r-y)^2$ ・・・・(31)

（「バックプロパゲーションに向けて（１）」の式(5)参照）で定義していますが、本来ニューロンには複数のパターン $\vec{x}(k)$ を与え、それによって対応する複数の出力 $y(k)$ や $r(k)$ が存在するはずです。そして学習が完了するというのは、全ての $k$ について

$y(k)=r(k)$ ・・・・(32)

になることですから、最小化すべき誤差は（パターンが全部で $m$ 個あったとすると）式(31)の $E$ ではなく

$E=\Bigsum_{k=1}^m\left[r(k)-y(k)\right]^2$ ・・・・(33)

でなければなりません。よって

$\Delta{s_i}=-\eta\frac{\partial{E}}{\partial{s_i}}$ ・・・・(34)

（「バックプロパゲーションに向けて（１）」の式(20)参照）に代入されるべき $E$ は式(33)の $E$ であるべきです。これならば $s_i$ を $\Delta{s_i}$ 変化させることで $E$ がだんだん小さくなっていくことは理解出来ます。

しかし、それでもまだ心配があります。勾配法では明らかに、極小値には向かうが、最小値に向かうとは限らない、という性質があります。もし極小値に収束することを避けるなんらかの方策をとることが出来たとすれば、 $E$ は式(33)により最小値がゼロなので、いつかは $E=0$ になることが予想出来ます。 $E=0$ になれば式(33)から明らかに全ての $k$ について式(32)が成り立ち、学習が完了することが分かります。

上記のように極小値を避ける方策を行なったとしてもまだ心配はあります。それは、式(31)では１個の入力パターンしか考慮していない、ということです。ここで取り上げている入力に対してその出力を得て $\Delta{s_i}$ を計算し、 $s_i$ を修正すれば、この入力パターンについては誤差が少なくなるでしょう。しかし、他の入力パターンについては誤差が大きくなるかもしれません。次に別のパターンを入力するとまたそれに応じた $\Delta{s_i}$ が計算され、 $s_i$ の値は変更されますが、それによって最初の入力パターンについての誤差が変わらないとかより小さくなるとかいう保証はありません。ひょっとすると、より大きくなるかもしれません。そう考えると式(31)の誤差を用いて学習が完了するかどうかは私には疑問に思えるのです。

その他に私は「バックプロパゲーションに向けて（３）」に書いたようにシグモイド関数を用いた誤差では、本来 $u$ の値が大きく外れていた場合でも誤差が小さく出るので学習が完了するのに時間がかかると予想される点も疑問に思えます。

私がバックプロパゲーションの手法に抱く疑問点をまとめると以下の３点になります。

１）１つのパターンについてのみの誤差を用いていて本当に学習が収束するか？
２）誤差がゼロにならず極小値に留まってしまう可能性があるのではないか？
３）学習が完了するのに標準デルタ則より時間がかかるのではないか？

このうち２）については「6.4節　誤差逆伝播法の問題点：第6章　誤差逆伝播法について：ニューラルネットワーク：村上研究室」にそのような問題が記述されていました。また３）については、バックプロパゲーション：Wikipedia日本語版」に

バックプロパゲーションによる学習での収斂は非常に遅い。

と書かれていました。

バックプロパゲーションへの疑問点ばかりを書いてしまいましたが、バックプロパゲーションはパーセプトロンでは解決出来なかった３層以上のニューラルネットワークの学習方法を確立したものとして重要らしいです。歴史的には、これによってふたたびニューラルネットワークの２番目のブームが始まったのでした。それは1980年代のことです。（最初のブームは1960年代で、これはローゼンブラットのパーセプトロンによって引き起こされたもの。その後、1969年のミンスキーとパパートの著作『パーセプトロン』の公刊によってブームが去ったのでした。）