5.2.オートアソシエータ――Learning Deep Architectures for AI

Learning Deep Architectures for AIの翻訳です。

目次はこちら

5.2.オートアソシエータ

以下に検討する若干のディープ・アーキテクチャ（ディープ・ビリーフ・ネットとスタックド・オートアソシエータ）は、構成要素、あるいは、モニタリング装置として、特定のタイプのニューラル・ネットワークである、オートアソシエータ、オートエンコーダとも、ディアボロ・ネットワークとも呼ばれる、を利用している(Rumelhart et al., 1986a; Bourlard & Kamp, 1988; Hinton & Zemel, 1994; Schwenk & Milgram, 1995; Japkowicz, Hanson, & Gluck, 2000)。オートアソシエータとセクション７で検討する制限ボルツマンマシンの間にも関係がある。オートアソシエータを訓練することはディープ・ネットワークを訓練することより容易に見えるので、それらはディープ・ネットワークを訓練するための構成要素として用いられてきた。そこでは個々のレベルが、別々に訓練可能なオートアソシエータと関係している。

オートアソシエータは入力をある表現に、入力がその表現から再構成出来るようにコード化するように、訓練される。よって目標出力は入力それ自身である。もし１つの線形の隠れた層があり、ネットワークを訓練するために平均２乗誤差基準が用いられるならば、 $k$ 個の隠れたユニットは入力を、データの最初の $k$ 個の主要構成要素の範囲に投影する方法を習得する(Bourlard & Kamp, 1988)。もし隠れた層が非線型ならば、オートアソシエータは、入力分布の多様な局面をとらえる能力を持ち、PCAとは非常に異なった振る舞いをする(Japkowicz et al., 2000)。再構成の負のlog尤度を最低にするために、我々が平均２乗誤差基準を一般化するのに好む公式は、コード化 $c(x)$ が与えられたとすると
　　　　　　　　　 $RE=-\log{P}(x|c(x))$ .　　　　　　　　(5)
である。例えば、もし入力 $x_i$ がバイナリか、２項確率と考えられるか、のいずれかであれば、損失関数は
　　　　 $-\log{P}(x|c(x))=-\Bigsum_ix_i\log{f}_i(c(x))+(1-x_i)\log(1-f_i(c(x)))$ 　　　　　　(6)
となる。ここで $f(c(x))$ はネットワークの出力であり、この場合は、例えばシグモイドで得られるような、(0,1)の中の数のベクトルでなければならない。希望するのは、 $c(x)$ が、データ内の変化の主要因をとらえる分散表現であることである。

この方法に関するひとつの重要課題は、もし他に制約がないならば、 $n$ 次元の入力と $n$ 以上の次元のコード化を持つオートアソシエータは、潜在的に恒等関数を学んでしまうことであり、その関数については多くの復号化は役に立たないだろう（例。単に入力をコピーする）。驚くべきことに、(Bengio et al., 2007)で報告された実験は、実際には、確率的勾配降下法で訓練すると、入力より多くの隠れたユニットを持つオートアソシエータは（この表現を入力に持っていくネットワーク上で測定された分類誤差の意味で）役に立つ表現を生み出す。ひとつの簡単な説明は、早期に停止する確率的勾配降下法はパラメータの $l2$ 正則化に類似している、という観察に基づいている(Collobert & Bengio, 2004)。連続した入力の完全な再構成を達成するには、非線型の隠れたユニットを持つ１隠れ層オートアソシエータは、最初の層に（隠れたユニットの非線型性をその線形領域内に持ち込むために）非常に小さな重みを、２番目の層に非常に大きな重みを必要とする。バイナリ入力でも、非常に大きな重みと非常に小さな重みは、再構成誤差を完全に最小にするのに必要である。非明示的な、あるいは明示的な、正則化は、大きな重みの解に到達するのを困難にするので、最適化アルゴリズムは、例が訓練集合内の例に似ている時のみうまく動くコード化を見つける。これは我々が望むことである。その表現は、関数とその逆関数を通しての恒等性を近似することを学んでいるのではなく、むしろ訓練集合内に存在する統計的規則性を利用していることを、これは意味する。

明示的な、あるいは非明示的な正則化によるコード化の制約の代わりの、あるいはそれに追加しての、１つの戦略はコード化にノイズを加えることである。これは本質的に、制約ボルツマンマシンがしていることであり、のちにそれを見ることになる。非常に成功することが見出されたもうひとつの戦略(Olshausen & Field, 1997; Doi, Balcan, & Lewicki, 2006; Ranzato et al., 2007; Ranzato & LeCun, 2007; Ranzato, Boureau, & LeCun, 2008)は、コードにおける、まばらさ（スパーシティ）の制約に基づいている。興味深いことに、これらの方法は、哺乳類の視覚系の主要な領域である、V1内のニューロンの受容野での観測に定性的によく合致する重みベクトルを生じさせる。まばらさ（スパーシティ）の問題はセクション13.2でさらに検討される。