11.2. 貪欲層毎訓練の変化に関する正当化――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

11.2. 貪欲層毎訓練の変化に関する正当化


ここでは、Hinton et al. (2006)でなされた、1つの制限ボルツマンマシン層を追加することでディープ・ビリーブ・ネットワークの尤度が向上する、という議論を検討する。xをモデル化するために制限ボルツマンマシンを訓練したと仮定しよう。それは2つの条件つき分布Q(\rm{\bold{h}}^1|x)Q(x|\rm{\bold{h}}^1)によって表現されるモデルQ(x)を提供する。前のサブセクションでの議論を利用して、等価な2層ディープ・ビリーフ・ネットワークを、つまり、P(x)=Q(x)を生成する、1番目のレベルの制限ボルツマンマシンの重みの転置を重みとしてもつ2番目のレベルの制限ボルツマンマシンによって与えられるP(x|\rm{\bold{h}}^1)=Q(x|\rm{\bold{h}}^1)P(\rm{\bold{h}}^1,\rm{\bold{h}}^2)を取ることにより、今、初期化しよう。さて、上記の式53と、P(\rm{\bold{h}}^1)を変化させることによって、つまりP(x|\rm{\bold{h}}^1)Q(\rm{\bold{h}}^1|x)を固定したまま2番目のレベルの制限ボルツマンマシンの変化を許すことによって、ディープ・ビリーフ・ネットワークの尤度を向上させる目的、に戻ろう。


P(x|\rm{\bold{h}}^1)=Q(x|\rm{\bold{h}}^1)から始めると、KL(=カルバック・ライブラー情報量)項はゼロで、式53のエントロピー項はディープ・ビリーフ・ネットワークP(\rm{\bold{h}}^1)に依存しないので、P(\rm{\bold{h}}^1)の項の小さな向上は\log{P}(x)の増加を保障する。P(\rm{\bold{h}}^1)項のさらなる向上(つまり、2番目の制限ボルツマンマシンのさらなる訓練)が、2番目の制限ボルツマンマシンを加える以前より低いlog尤度をもたらすことは出来ないことも、また保障される。これは単純に、KL項とエントロピー項が正であるためである。2番目の制限ボルツマンマシンのさらなる訓練は、Hinton et al. (2006)で議論されたように、log尤度の下限を増加させる。これは、訓練集合にわたっての期待値\Bigsum_{\rm{\bold{h}}^1}Q(\rm{\bold{h}}^1|x)\log{P}(\rm{\bold{h}}^1)を最大化させるために2番目の制限ボルツマンマシンを訓練することを正当化する。


よって2番目のレベルの制限ボルツマンマシンは、P(\rm{\bold{h}}^1)について
      \Bigsum_{x,\rm{\bold{h}}^1}\hat{P}(x)Q(\rm{\bold{h}}^1|x)\log{P}(\rm{\bold{h}}^1)               (54)
を最大化するように訓練される。これが、結合分布\hat{P}(x)Q(\rm{\bold{h}}^1|x)から周辺サンプルとして得られた例\rm{\bold{h}}^1を見るモデルのための最大尤度判定基準である。もし仮にP(\rm{\bold{h}}^1)に関する制約がなかったとしたら、上記の訓練判定基準の最大化子は、その「実験に基づく」あるいは目標の分布
      P*(\rm{\bold{h}}^1)=\Bigsum_x\hat{P}(x)Q(\rm{\bold{h}}^1|x)      (55)
になったことであろう。もし1番目のレベルの制限ボルツマンマシンを固定したままでいると、2番目のレベルの制限ボルツマンマシンはよって以下のように訓練されるだろう。訓練集合からxを抽出し、次に\rm{\bold{h}}^1\sim{Q}(\rm{\bold{h}}^1|x)を抽出し、そのhを2番目のレベルの制限ボルツマンマシンのための訓練サンプルと考える。


同じ議論を、3番目の層などを追加することを正当化するために行うことが出来る。我々は、セクション10で概説した貪欲層毎訓練手続きを得る。実際には、層のサイズを変えるという要求は満足されず、その結果、前の層の重みの転置を持つ、新たに加えられた制限ボルツマンマシンを初期化することは普通ではない(Hinton et al., 2006; Bengio et al., 2007)が、(サイズ制約が課せられた場合に)前の層の転置を持つ初期化が訓練のスピードを向上させるのに役立つかどうかを実験で確認することは興味深いことであろう。


2番目の制限ボルツマンマシンの訓練を続ける時(そしてこれはさらに層を加えることを含む)、\log{P}(x)(訓練集合に渡っての平均で)が単調増加する保証はないことに注意。我々の下限は増加し続ける時に、実際のlog尤度は減少し始めることが出来る。どうしてそれが起こり得るのかより詳しく調べてみよう。2番目の制限ボルツマンマシンが訓練され続けている時に、それはKL項の減少を要求するであろう。しかし、これは一般的には起こりにくい。そのディープ・ビリーフ・ネットワークのP(\rm{\bold{h}}^1)が、最初の制限ボルツマンマシンの\rm{\bold{h}}^1上の周辺分布Q(\rm{\bold{h}}^1)から、どんどんそれていくので、(そのディープ・ビリーフ・ネットワークからの)P(\rm{\bold{h}}^1|x)と(その制限ボルツマンマシンからの)Q(\rm{\bold{h}}^1|x)の事後分布は(P(\rm{\bold{h}}^1|x)\propto{P}(x|\rm{\bold{h}}^1)P(\rm{\bold{h}}^1))なので)どんどんそれ、式53のKL項を増加させることは、起こりそうである。2番目の制限ボルツマンマシンの訓練尤度が増加するので、P(\rm{\bold{h}}^1)は滑らかにQ(\rm{\bold{h}}^1)からP*(\rm{\bold{h}}^1)に向けて移動する。その結果、2番目の制限ボルツマンマシンの訓練の継続はディープ・ビリーフ・ネットワークの尤度を(最初だけでなく)増加させつつあり、移行性により、層をより多く追加することも、おそらくはディープ・ビリーフ・ネットワークの尤度を増加させるだろう。


なぜ貪欲手続きがうまくいくのかを説明する別の議論は以下の通りである(Hinton, NIPS’2007チュートリアル)。2番目の制限ボルツマンマシン(P*(\rm{\bold{h}}^1)からのサンプル\rm{\bold{h}}^1)は、元々の訓練分布\hat{P}(x)よりも、制限ボルツマンマシンが生成したデータにより似ているようにみえる。これは、P*(\rm{\bold{h}}^1)は、\hat{P}(x)からの例の上の制限ボルツマンマシン・ギブスチェーンの1つのサブステップを適用することにより得られたからであり、多くのギブスステップを適用することはその制限ボルツマンマシンからのデータを生み出すことが分かっている。


あいにく、ディープ・ビリーフ・ネットワークの最上レベルにならない制限ボルツマンマシンを訓練する時、隠れたユニットでの事前分布を向上させるために、のちにより多くのキャパシティを追加する、という事実を考慮に入れていない。Le Roux and Bengio (2008)は、ディープ・ビリーフ・ネットワークの中間層を初期化することになっている制限ボルツマンマシンを訓練するために、対照分岐の代替手段を考察することを提案した。そのアイディアは、P(h)は非常に高いキャパシティのモデル(ディープ・ビリーフ・ネットワークのより高いレベル)でモデル化されることになることを考慮するものである。無限キャパシティの極限の場合は、その最適のP(h)がどうなるかを書き下すことが出来る。それは単に、1番目の制限ボルツマンマシン(あるいは以前の制限ボルツマンマシン)のQ(h|x)を確率的に写像することによる、実験的の分布の確率的変形である。これを\log{P}(x)についての式に代入すると、最初の制限ボルツマンマシンを訓練するための良い判断基準は、データ分布と、ギブスチェーンの1ステップの後の確率的再構成ベクトルの分布との間の、カルバック・ライブラー情報量であることが分かる。実験(Le Roux & Bengio, 2008)は、この判断基準が(この制限ボルツマンマシンで初期化された)ディープ・ビリーフ・ネットワークのより良い最適化を生み出すことを確認した。あいにく、この判断基準は隠れたベクトルhの全ての構成に渡っての合計を含むので、扱い易くない。これの扱い易い近似が考慮されるだろう。もう一つの興味深い選択肢は、次のセクションで調査されることになるが、ディープ・ビリーフ・ネットワークの同期した最適化について直接働きかけることである。