バックプロパゲーションに向けて(3)
「バックプロパゲーションに向けて(1)」の式(9)
- ・・・・(9)
ではを微分出来なくて立ち往生したのでした。そこで「バックプロパゲーションに向けて(1)」の式(4)
- ・・・・(4)
の代わりに「バックプロパゲーションに向けて(2)」に登場したシグモイド関数
- ・・・・(10)
を用いて
- ・・・・(16)
とすれば、式(9)の代わりに
- ・・・・(17)
を得ます。「バックプロパゲーションに向けて(2)」の式(15)
- ・・・・(15)
を式(17)に代入して
- ・・・・(18)
式(18)と(16)から
- ・・・・(19)
となります。は勾配の低いほうに変化させるべきですから、の変化分をとすると
- ・・・・(20)
となります。ただしは任意の正の定数です。式(20)に式(19)を代入して
- ・・・・(21)
となります。これがバックプロパゲーションの考え方を1ニューロンに適用した時の学習則になります。
一方、1ニューロンのパーセプトロンの学習則は「1個のニューロンの学習(5)」の式(3)(ここでは数字を振り直して式(22))
- ・・・・(22)
ですから、式(21)と同じような書き方をすれば
- ・・・・(23)
となります。式(21)と(23)は似てはいますが、があるかないかが異なっています。私が特に気になるのは、式(21)の学習則ではがあるので、が0に近かったり1に近かったりするとの値が小さくなり、その結果も小さくなる、ということです。そしてシグモイド関数のグラフ
を見れば分かるように、付近以外はは0に近かったり1に近かったりするのです。つまり、がゼロから大きく離れていればいるほどは小さくなるわけです。もし、本来が正でなければならないのに現状では0よりマイナス方向に大きくズレていたり、逆に本来が負でなければならないのに現状では0よりプラス方向に大きくズレている場合は、の値を変更するためにを大きくする必要があるのに、式(21)の学習則では逆に小さくなってしまいます。これでは本当に学習が収束するのか疑問です。また、収束したとしても標準デルタ則(式(23))よりも収束に時間がかかるのではないか、と心配になります。
この疑問はこのままにしておき、とにかく先に進むことにします。今度は図
のような、入力層を共通とする複数個のニューロンによる層からなるニューラルネットワークを考察します。