バックプロパゲーション（１） - 工場統計力学（建設中！）

ここからバックプロパゲーションの検討に入ります。まず、以下のような２層のニューラルネットワークを考察します。

図１

中間層のニューロンは $p$ 個あり、 $j$ 番目のニューロンを $n_{1j}$ で表します。出力層のニューロンは $q$ 個あり、 $k$ 番目のニューロンを $n_{2k}$ で表します。ニューロン $n_{2k}$ の入力 $z_j$ に対応するシナプス係数を $s_{2k}(j)$ で表すことにします。 $z_0$ は常に $z_0=1$ であるとします。ニューロン $n_{2k}$ の入力 $z_j$ と出力 $y_k$ の関係は

$y_k=f(u_{2k})$ ・・・・(1)
$u_{2k}=\Bigsum_{j=0}^ps_{2k}(j)z_j$ ・・・・(2)

で表されます。ここに $f(u)$ はシグモイド関数で

$f(u)=\frac{1}{1+e^{-u}}$ ・・・・(3)

で定義されます。次にニューロン $n_{1j}$ の入力 $x_i$ に対応するシナプス係数を $s_{1j}(i)$ で表すことにします。 $x_0$ は常に $x_0=1$ であるとします。ニューロン $n_{1j}$ の入力 $x_i$ と出力 $z_j$ の関係は

$z_j=f(u_{1j})$ ・・・・(4)
$u_{1j}=\Bigsum_{i=0}^ns_{1j}(i)z_i$ ・・・・(5)

で表されます。また、出力 $y_k$ に対応する教師信号を $r_k$ で表すことにし、出力 $\vec{y}$ と教師信号 $\vec{r}$ との誤差 $E$ を

$E=\Bigsum_{k=1}^q(r_k-y_k)^2$ ・・・・(6)

で定義します。

$s_{kj}(i)$ を１回の学習で変化させる変化分を $\Delta{s}_{kj}(i)$ で表すことにします。バックプロパゲーションの考え方では

$\Delta{s}_{kj}(i)=-\eta\frac{\partial{E}}{\partial{s}_{kj}(i)}$ ・・・・(7)

で $\Delta{s}_{kj}(i)$ を決定することになります。ただし $\eta$ は正の定数です。

まず、 $\Delta{s}_{2k}(j)$ を求めるために

$\frac{\partial{E}}{\partial{s}_{2k}(j)}$

を計算します。 $s_{2k}(j)$ はニューロン $n_{2k}$ のシナプス係数なのでその変化は $y_k$ を変化させますが $\vec{y}$ の他の成分を変化させません。よって

$\frac{\partial{E}}{\partial{s}_{2k}(j)}=\frac{\partial{E}}{\partial{y_k}}\cdot\frac{\partial{y_k}}{\partial{u}_{2k}}\cdot\frac{\partial{u}_{2k}}{\partial{s}_{2k}(j)}$ ・・・・(8)

ここで式(6)から

$\frac{\partial{E}}{\partial{y_k}}=-2(r_k-y_k)$

また式(1)から

$\frac{\partial{y_k}}{\partial{u}_{2k}}=y_k(1-y_k)$

また、式(2)から

$\frac{\partial{u}_{2k}}{\partial{s}_{2k}(j)}=z_j$

なので式(8)は

$\frac{\partial{E}}{\partial{s}_{2k}(j)}=-2(r_k-y_k)y_k(1-y_k)z_j$ ・・・・(9)

となります。式(7)と(9)から

$\Delta{s}_{2k}(j)=2\eta(r_k-y_k)y_k(1-y_k)z_j$ ・・・・(10)

となります。これで $\Delta{s}_{2k}(j)$ を決定することが出来ました。

次に、 $\Delta{s}_{1j}(i)$ を求めていきます。上と同じように $E$ の $s_{1j}(i)$ による偏微分を計算します。今度は $s_{1j}(i)$ はニューロン $n_{1i}$ のシナプス係数ですが、 $n_{1j}$ の出力である $z_j$ の変化は、図１を見れば分かるように全ての $y_k$ に変化を与えます。よって偏微分は以下のように変形されます。

$\frac{\partial{E}}{\partial{s}_{1j}(i)}=\Bigsum_{k=1}^q\left[\frac{\partial{E}}{\partial{y_k}}\cdot\frac{\partial{y_k}}{\partial{u}_{2k}}\cdot\frac{\partial{u}_{2k}}{\partial{s}_{1j}(i)}\right]$
$\frac{\partial{E}}{\partial{s}_{1j}(i)}=-2\Bigsum_{k=1}^q\left[(r_k-y_k)y_k(1-y_k)\frac{\partial{u}_{2k}}{\partial{s}_{1j}(i)}\right]$ ・・・・(11)