5.3.最適化戦略としての教師なし学習――Learning Deep Architectures for AI

Learning Deep Architectures for AIの翻訳です。

5.3.最適化戦略としての教師なし学習


ディープ・ネットワークを最適化するのに役立つことが見出された別の原則は、ネットワークの個々の層を初期化するための教師なし学習の使用に基づいている。もし、出力層で定義された判断基準についての勾配が、低位の層に逆伝播するにつれて、徐々に役に立たなくなるのであれば、単一層のレベルで定義された教師なし学習判断基準が、そのパラメータを、役に立つ方向に移動させるのに使用出来ると信じるのは合理的である。もし仮に単一層学習アルゴリズムが、層の入力の統計的規則性をとらえるような表現を発見したならば、これを期待するのは合理的であっただろう。PCAと、ICAの大部分の変形は不適切であるようにみえる。というのは、それらは一般に、層の出力の数が、層の入力の数より大きい、いわゆる過剰決定ケースにおいて、つじつまが合わないからである。これは、過剰決定ケースに適用出来るオートアソシエータや制限ボルツマンマシンのような、PCAとICAに関連するアルゴリズムと同様に、過剰決定ケースを扱うためのICSの拡張の方向を見ることを示唆している(Lewicki & Sejnowski, 1998; Hinton, Welling, Teh, & Osindero, 2001; Teh, Welling, Osindero, & Hinton, 2003)。確かに、複数層との関連でこれらの1層教師なし学習アルゴリズムで行った実験は、このアイディアを裏付けている (Hinton et al., 2006; Bengio et al., 2007; Ranzato et al., 2007)。


教師あり判断基準についての勾配によって与えられた信頼出来ない更新方向への依存を減らすのに、教師なし学習が役立つという動機に加えて、ディープ・アーキテクチャの個々のレベルで教師なし学習を用いることの、もうひとつ別の動機が存在する。それは問題を、様々なレベルの抽象に関連したサブ問題に、自然に分解する仕方であろう。教師なし学習アルゴリズムが、入力分布に関する目立った情報を抽出出来ることを我々は知っている。この情報は、分散表現で、つまり入力における変化の目立った要因をコード化する特徴の集合で、とらえることが出来る。1層教師なし学習アルゴリズムはそのような目立った特徴を抽出出来るが、その層の容量の制限のため、アーキテクチャの最初のレベルで抽出された特徴は、低レベルの特徴と見なすことが出来る。同じ原理に基づくが最初の層で学習された特徴を入力として取り込む2番目の層を学習することは、若干より高いレベルの特徴を抽出出来るだろうことは、考えられることである。このようにして、入力を特徴づける、より高レベルの抽象が出現することが想像出来る。このプロセスで、どのようにして全ての学習が個々の層に局在し続け、よって、我々が1つの大域的な判断基準を最適化しようとする時に、ディープ・ニューラル・ネットワークの勾配ベース学習に損害をあたえつつあるであろう、勾配拡散の問題を回避することに注意。これが次のセクションの動機を与える。次のセクションでは制限ボルツマンマシンの概念を形式化する。