11.3. 全層の同時教師無し訓練――Learning Deep Architectures for AI
Learning Deep Architectures for AI の翻訳です。
11.3. 全層の同時教師無し訓練
ここでは、教師なしlog尤度に関してディープ・ビリーフ・ネットワーク全体をどのように訓練出来るかについて議論する。貪欲訓練アルゴリズムを正当化するだけでなく、ディープ・ビリーフ・ネットワークの全ての層を(たぶん貪欲層毎初期化フェーズのあとに)同時に更新するような学習アルゴリズムを正当化するためにも、式53のlog尤度分解
. (56)
を用いることが出来る。
ディープ・ビリーフ・ネットワークの最上レベルは1つの制限ボルツマンマシンとして訓練される、つまり、
を最大化するように
を選択する。ここで
はディープ・ビリーフ・ネットワークの最後から2番目の層であり、最上レベル制限ボルツマンマシンは、ディープ・ビリーフ・ネットワークの最後から2番目と最上の層の間の結合分布を表現する。
低いレベルを固定したままにする代わりに、我々が高いレベルの項目を考慮しつつ、それらを改善したいならば、式53に戻り
と
についてのlog尤度の勾配の見積値を計算することが出来る。説明を簡単にするために、我々は2レベル・ディープ・ビリーフ・ネットワークの場合のみを考慮するが、任意の数のレベルに同じ原則を容易に一般化出来る。
のエントロピーの勾配は、
の1つ以上のサンプルを用いて、確率的に見積もることは容易である。
に影響を与えるパラメータ
を考察しよう。最初に
を用い、次の行で補題7.2を用いて
. (57)
に影響を与える1番目のレベルのパラメータ
についての確率的勾配も、類似の導出を用いて容易に得られる。
(58)
両方の場合、訓練集合とから
を抽出し、勾配
と
を用いる。
と
は勝手に大きくなり得るので、これらの評価子は高い分散を用い得る。実際、それらの変動は、隠れたベクトルの次元について線形に増加するだろう。
カルバック・ライブラー情報量の勾配はより問題が多い。というのは、
の単純な式を我々は持っていないからである。式53でのKL(=カルバック・ライブラー情報量)項は正であり、我々はlog尤度の下限を最適化しているので、この項は潜在的に無視される。その代わりシグモイド・ビリーフ・ネットワークについての覚醒・睡眠アルゴリズムで、ある近似が用いられる(Hinton et al., 1995)。このアイディアは、他のカルバック・ライブラー情報量
を最小化するものである。確かにもし我々がディープ・ビリーフ・ネットワークからサンプル抽出するならば、
から、
の目標として用いることの出来る、ひとつの
タプルを得る。再び補題7.2と
を用いて
. (59)
以前のように我々は確率的評価子を得ることが出来るが、項はおそらく大きな分散を持つだろう。ディープ・ビリーフ・ネットワークのための、覚醒・睡眠アルゴリズム(Hinton et al., 1995)とその対照版(Hinton et al., 2006)では、
のパラメータ群と
のパラメータ群は分離している。ディープ・ビリーフ・ネットワークの文脈では、最上レベル以外の全てのレベルについて、(
で用いられる)最適な「生成の重み」は(
で用いられる)「認識の重み」(の転置)と等しくなければならない、と信じる理由はない。覚醒・睡眠アルゴリズムは両方に対しての更新ルールを提供する。真の事後分布
は必ずしも因数分解可能ではない(
の形に書けない)が、一方
は因数分解可能であることを知っている。このアルゴリズムは、覚醒フェーズと睡眠フェーズの2つのフェーズで進む。覚醒フェーズでは、訓練サンプル
から開始し、(
から始めて)個々のレベルで
によって与えられる近似事後分布からサンプルを計算する。これらのサンプル
は
生成の分布を更新するための完全に観察された訓練データを提供する。つまり、以下の勾配の方向への確率的ステップが遂行される。
(60)
覚醒フェーズでは最上レベル制限ボルツマンマシンの更新も、その見えるベクトルについての観察としてのによって行われる。睡眠フェーズでは、モデルから完全な観察
を生成する。最初に最上レベル制限ボルツマンマシンから
を抽出し、次に
に従って個々の
を抽出する。これは次に、以下の勾配の方向へ確率的に進むことにより、認識条件分布
のための完全に観察された訓練データとして用いられる。
(61)
よって、このセクションで述べられたlog尤度勾配の分解に関して、覚醒・睡眠アルゴリズムで遂行される近似は以下の通りである。(a)に関する勾配によって
に関する勾配を近似し、(b)
(62)
と近似する。これはが
の良い近似である限り合理的であろう。ディープ・ビリーフ・ネットワークを微調整するのに、そして生成モデルと、正しく分類するその能力の両方を改善するのに、覚醒・睡眠アルゴリズムを(ゆっくりではあるが)用いることが出来ることを実験は示唆している (Hinton et al., 2006)。