11.3. 全層の同時教師無し訓練――Learning Deep Architectures for AI
Learning Deep Architectures for AI の翻訳です。
11.3. 全層の同時教師無し訓練
ここでは、教師なしlog尤度に関してディープ・ビリーフ・ネットワーク全体をどのように訓練出来るかについて議論する。貪欲訓練アルゴリズムを正当化するだけでなく、ディープ・ビリーフ・ネットワークの全ての層を(たぶん貪欲層毎初期化フェーズのあとに)同時に更新するような学習アルゴリズムを正当化するためにも、式53のlog尤度分解
. (56)
を用いることが出来る。
ディープ・ビリーフ・ネットワークの最上レベルは1つの制限ボルツマンマシンとして訓練される、つまり、を最大化するようにを選択する。ここではディープ・ビリーフ・ネットワークの最後から2番目の層であり、最上レベル制限ボルツマンマシンは、ディープ・ビリーフ・ネットワークの最後から2番目と最上の層の間の結合分布を表現する。
低いレベルを固定したままにする代わりに、我々が高いレベルの項目を考慮しつつ、それらを改善したいならば、式53に戻りとについてのlog尤度の勾配の見積値を計算することが出来る。説明を簡単にするために、我々は2レベル・ディープ・ビリーフ・ネットワークの場合のみを考慮するが、任意の数のレベルに同じ原則を容易に一般化出来る。
のエントロピーの勾配は、の1つ以上のサンプルを用いて、確率的に見積もることは容易である。に影響を与えるパラメータを考察しよう。最初にを用い、次の行で補題7.2を用いて
. (57)
に影響を与える1番目のレベルのパラメータについての確率的勾配も、類似の導出を用いて容易に得られる。
(58)
両方の場合、訓練集合とからを抽出し、勾配と を用いる。とは勝手に大きくなり得るので、これらの評価子は高い分散を用い得る。実際、それらの変動は、隠れたベクトルの次元について線形に増加するだろう。
カルバック・ライブラー情報量の勾配はより問題が多い。というのは、の単純な式を我々は持っていないからである。式53でのKL(=カルバック・ライブラー情報量)項は正であり、我々はlog尤度の下限を最適化しているので、この項は潜在的に無視される。その代わりシグモイド・ビリーフ・ネットワークについての覚醒・睡眠アルゴリズムで、ある近似が用いられる(Hinton et al., 1995)。このアイディアは、他のカルバック・ライブラー情報量を最小化するものである。確かにもし我々がディープ・ビリーフ・ネットワークからサンプル抽出するならば、から、の目標として用いることの出来る、ひとつのタプルを得る。再び補題7.2とを用いて
. (59)
以前のように我々は確率的評価子を得ることが出来るが、項はおそらく大きな分散を持つだろう。ディープ・ビリーフ・ネットワークのための、覚醒・睡眠アルゴリズム(Hinton et al., 1995)とその対照版(Hinton et al., 2006)では、のパラメータ群とのパラメータ群は分離している。ディープ・ビリーフ・ネットワークの文脈では、最上レベル以外の全てのレベルについて、(で用いられる)最適な「生成の重み」は(で用いられる)「認識の重み」(の転置)と等しくなければならない、と信じる理由はない。覚醒・睡眠アルゴリズムは両方に対しての更新ルールを提供する。真の事後分布は必ずしも因数分解可能ではない(の形に書けない)が、一方は因数分解可能であることを知っている。このアルゴリズムは、覚醒フェーズと睡眠フェーズの2つのフェーズで進む。覚醒フェーズでは、訓練サンプルから開始し、(から始めて)個々のレベルでによって与えられる近似事後分布からサンプルを計算する。これらのサンプルは生成の分布を更新するための完全に観察された訓練データを提供する。つまり、以下の勾配の方向への確率的ステップが遂行される。
(60)
覚醒フェーズでは最上レベル制限ボルツマンマシンの更新も、その見えるベクトルについての観察としてのによって行われる。睡眠フェーズでは、モデルから完全な観察を生成する。最初に最上レベル制限ボルツマンマシンからを抽出し、次にに従って個々のを抽出する。これは次に、以下の勾配の方向へ確率的に進むことにより、認識条件分布のための完全に観察された訓練データとして用いられる。
(61)
よって、このセクションで述べられたlog尤度勾配の分解に関して、覚醒・睡眠アルゴリズムで遂行される近似は以下の通りである。(a) に関する勾配によってに関する勾配を近似し、(b)
(62)
と近似する。これはがの良い近似である限り合理的であろう。ディープ・ビリーフ・ネットワークを微調整するのに、そして生成モデルと、正しく分類するその能力の両方を改善するのに、覚醒・睡眠アルゴリズムを(ゆっくりではあるが)用いることが出来ることを実験は示唆している (Hinton et al., 2006)。