工場統計力学（建設中！）

バックプロパゲーションに向けて（１）

ニューラルネットワーク

これからパーセプトロンについての考察をもとにバックプロパゲーション（誤差伝播法）の理解に向けて自分なりのメモを展開していこうと思います。私がバックプロパゲーションについて理解したところによると、まず、ネットワークの出力と教師信号の間の誤差 $E$ を定義する。次に誤差 $E$ はネットワークを構成する各ニューロンのシナプス係数（ここにはしきい値も含む） $s$ と入力パターン $\vec{x}$ の関数であるから $E$ を $s$ で微分して、その勾配を求め、勾配の下りの方向を見つけてそちらに向かうように $s$ を変化させる、というものです。そして $E$ を微分可能にするために、マカロック・ピッツのモデルで使用している階段関数 $1(x)$ では $x=0$ で微分不可能なので、その代わりにシグモイド関数

$f(x)=\frac{1}{1+e^{-x}}$ ・・・・(1)

を使用するというものです。まずは、これを１ニューロンのパーセプトロン

に適用してその内容を確かめてみます。

入力パターン $\vec{x}$ のi番目の成分を $x_i$ とします。出力を $y$ とします。以下の議論では、常に $x_0=1$ とし $s_0=-h$ とすることでしきい値 $h$ をシナプス係数として扱うことにします。マカロック・ピッツのモデルでは

$y=1\left(\Bigsum_{i=0}^ns_ix_i\right)$ ・・・・(2)

でした。ここで

$u=\Bigsum_{i=0}^ns_ix_i$ ・・・・(3)

と定義します。すると式(2)から

$y=1(u)$ ・・・・(4)

と書くことが出来ます。

次に出力 $y$ と教師信号 $r$ の誤差を考えます。ここでは誤差 $E$ を

$E=(r-y)^2$ ・・・・(5)

で定義することにします。誤差の定義としては

$E=|r-y|$ ・・・・(6)

も考えられますが、のちに微分を行う時の扱いやすさから式(5)で定義します。

次に $E$ を $s_i$ で微分して勾配

$\frac{\partial{E}}{\partial{s_i}}$

を求めます。 $s_i$ を変化させた時に出力 $y$ は変化しますが、教師信号 $r$ は（その定義からして）変化しませんので

$\frac{\partial{E}}{\partial{s_i}}=\frac{\partial{E}}{\partial{y}}\frac{\partial{y}}{\partial{s_i}}$

よって

- $=-2(r-y)\frac{d1(u)}{du}\frac{\partial{u}}{\partial{s_i}}$

よって

$\frac{\partial{E}}{\partial{s_i}}=-2(r-y)\frac{d1(u)}{du}\frac{\partial{u}}{\partial{s_i}}$ ・・・・(7)

ここで式(3)から

$\frac{\partial{u}}{\partial{s_i}}=x_i$ ・・・・(8)

なので、式(7)(8)から

$\frac{\partial{E}}{\partial{s_i}}=-2(r-y)x_i\frac{d1(u)}{du}$ ・・・・(9)

ただ、ここで

$\frac{d1(u)}{du}$

が問題になります。これは $u=0$ で微分出来ません。さらに $u\neq{0}$ では

$\frac{d1(u)}{du}=0$

になるので傾きが0になり、 $s_i$ をどう変化させたらよいかの情報を得ることが出来ません。