９．オートアソシエータの積上げ――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

目次はこちら

９．オートアソシエータの積上げ

オートアソシエータは、深い（＝ディープな）複数層ニューラル・ネットワークを構築する際の構成要素として用いられてきた(Bengio et al., 2007; Ranzato et al., 2007; Larochelle et al., 2007)。その訓練手順はディープ・ビリーブ・ネットワークのものよりも簡単なので、この方法には多くの変形が可能であることに注意しながら、これから始める。

ナマ入力の再建誤差のある形を最小にするように、最初の層をオートアソシエータとして訓練する。これは純粋に、教師なしである。

そのオートアソシエータの隠れたユニットの出力を今度は別の層の入力として用い、その層もオートアソシエータとして訓練される。やはり、ラベルのない例だけが必要である。

望む数の層を追加するために(2)を繰り返す。

最後の隠れた層の出力を、教師あり学習の出来た層への入力として用い、そのパラメータ群を（ランダムに、あるいは教師あり学習、のいずれかで、ネットワークの残りの部分は固定したまま）初期化する。

このディープ・アーキテクチャの全てのパラメータを、教師ありの判断基準について微調整する。あるいは、(Hinton & Salakhutdinov, 2006)にあるように、全てのオートアソシエータを非常に深いオートアソシエータに展開し、大域再建誤差を微調整する。

貪欲な層毎のやり方での教師なし初期化で全ての層のパラメータを、パラメータ空間の、そこから局所降下で良い局所最適条件に到達出来るような領域内に、置くことが望ましい。これは確かに多くのタスクで起こっているように見える (Bengio et al., 2007; Ranzato et al., 2007; Larochelle et al., 2007)。

この原理は以前、ディープ・ビリーフ・ネットワークを訓練するのに提案された原理(Hinton et al., 2006)とまったく同じであるが、制限ボルツマンマシンの代わりにオートアソシエータを用いている。(Bengio et al., 2007; Larochelle et al., 2007)における比較実験結果は、ディープ・ビリーフ・ネットワークは通常（しかし体系的にではない）、オートアソシエータの積上げより若干優位に立っていることを、たぶんCD- $k$ は再建誤差勾配よりもlog尤度勾配に近いためであろうが、示唆している。しかし、再建誤差勾配は（サンプル抽出が含まれていないので）CD- $k$ より分散が少ないので、少なくとも学習の初期フェーズにおいて、２つの判断基準を組み合わせることは興味深いことであろう。

ディープ・アーキテクチャの構成要素として制限ボルツマンマシンの代わりにオートアソシエータを用いることの利点は、訓練判断基準がパラメータについて連続である限り、層のほとんど任意のパラメータ化が可能であることである。一方、CDや他の既知の、log尤度勾配の扱いやすい評価子を適用出来る確率的モデルのクラスは、現状、より限られている。オートアソシエータの積上げの欠点は、それらが生成モデルに対応していない、ということである。制限ボルツマンマシンやディープ・ビリーフ・ネットワークのような生成モデルでは、何が学習されたかを定性的にチェックするためにサンプルを抽出することが出来る。例えばモデルがもっともらしいと見ている画像や単語列を視覚化することでチェック出来る。

上のアルゴリズムは、必然的に半教師あり設定にあることに注意。そこでは訓練例のうちわずかだけが、教師ありのレベルに関係している。ラベルなしの例に対しては、教師なしの判断基準（例えば、個々のレベルや、ネットワーク全体に渡っての再建誤差）が使用されるが、一方、教師ありの例に対しては教師ありの判断基準が使用される。ラベルのついた例については、両方の判断基準を組合せることが出来る。両方の判断基準を組合せることは、（全ての層が一緒に最適化される）微調整段階にだけでなく、貪欲層単位段階の間にも役立つことが分かっている(Bengio et al., 2007)。この部分教師ありの形式は、教師ありのタスクについて我々がとらえて欲しい目標の条件付き分布に関して、真の入力分布があまり情報を持っていない場合に、役立つことが見い出されてきた。