オートエンコーダ（６） - 工場統計力学（建設中！）

今まで書いてきたことを一般の次元に拡張してみます。

入力層と出力層のノードの数が $M$ 、中間層のノードの数が $R$ で、 $M>R$ であるとします。よって、このオートエンコーダへの入力データの次元数は $M$ になります。入力層の $j$ 番目の入力を $x_j$ で表します。中間層の $k$ 番目のノード（＝ニューロン）の出力を $y_k$ で表します。両者の関係は

$y_k=\Bigsum_{j=1}w_{kj}x_j-h_k$ ・・・・(23)

で定義されます。ここで $w_{kj}$ は中間層のニューロン $k$ の入力 $x_j$ についての重みであり、 $h_k$ は中間層のニューロン $k$ のしきい値です。次に出力層の $j$ 番目のニューロンの出力を $x_j'$ とします。 $x_j'$ は中間層の出力 $y_k$ を受けて作成されるのであり、両者の関係は

$x_j=\Bigsum_{k=1}W_{jk}y_k-H_j$ ・・・・(24)

で定義されます。ここで $W_{jk}$ は出力層のニューロン $j$ の入力 $y_k$ についての重みであり、 $H_j$ は出力層のニューロン $j$ のしきい値です。このオートエンコーダの入力層に $N$ 個の $M$ 次元の入力データを入力し、出力層からの出力が入力層への入力データと出来るだけ近くなるように、 $w_{kj}$ 、 $h_k$ 、 $W_{jk}$ 、 $H_j$ を調整していきます。この「出来るだけ近くなるように」をもう少し厳密に定義しましょう。まず $i$ 番目の入力データを $\vec{x}(i)$ で表します。そして $\vec{x}(i)$ の $j$ 番目の成分を $x_j(i)$ で表すことにします。つまり $\vec{x}(i)=[x_1(i),x_2(i),...,x_M(i)]$ です。同様に $i$ 番目の出力データを $\vec{x}'(i)$ で表します。そして $\vec{x}'(i)$ の $j$ 番目の成分を $x_j'(i)$ で表すことにします。出力層からの出力が入力層への入力データと出来るだけ近くなるようにするとは、以下で定義される入力と出力の間の２乗平均誤差 $E$ を最小にすること、であるとします。

$E=\frac{1}{N}\Bigsum_{i=1}^N\Bigsum_{j=1}^M(x_j'(i)-x_j(i))^2$ ・・・・(25)

$E$ を最小にするように $w_{kj}$ 、 $h_k$ 、 $W_{jk}$ 、 $H_j$ を調整した結果、中間層の出力 $y_k$ が、入力データの主成分分析による次元削減になるかどうかを調べていきます。

ここで、式(23)が主成分分析の結果になりやすいように、以下のような小ワザを使います。
まず、 $N$ 個の入力データの各成分の平均がゼロになるように、入力データの各成分の値からそれぞれの成分の平均を引いたものを、新しい入力データとします。そして式(23)の $h_k$ を $h_k=0$ とし、式(24)の $H_j$ も $H_j=0$ とします。
また、

$W_{jk}=w_{kj}$ ・・・・(26)

という制限を課します。すると式(25)の $E$ を最小にするために調整するパラメータは $w_{kj}$ のみになり、問題が扱いやすくなります。