11.ディープ・ビリーフ・ネットワークの層の同時最適化のための確率変動境界――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

11.ディープ・ビリーフ・ネットワークの層の同時最適化のための確率変動境界


このセクションでは、ディープ・ビリーフ・ネットワークを訓練するためのアルゴリズムの数学的基礎について検討する。ディープ・ビリーフ・ネットワークのlog尤度はイェンゼンの不等式を用いて下限を設定出来、以下に議論するように、これは(Hinton et al., 2006)で導入され、セクション10で説明した貪欲層毎の訓練戦略を正当化することが出来る。ディープ・ビリーフ・ネットワークの結合分布についての式51から始め、表記法を軽くするために\rm{\bold{h}}^1(最初のレベルの隠れたベクトル)をhと書き、任意の条件分布Q(h|x)を導入することにより
      \log{P}(x) = \log\Bigsum_hP(x,h)
           = \log\Bigsum_h\frac{Q(h|x)P(x, h)}{Q(h|x)}
           \ge\Bigsum_hQ(h|x)\ log\frac{P(x,h)}{Q(h|x)}
           =\Bigsum_hQ(h|x) (\log{P}(x, h)-\log{Q}(h|x))
           = H_{Q(h|x)} +\Bigsum_hQ(h|x) (\log{P}(h)+\log{P}(x|h)) .    (52)
を得る。ここでH_{Q(h|x)}は分布Q(h|x)エントロピーである。この不等式が見落としていることを見るために、我々は別の導出を用いることが出来、これは今度も任意のQ(h|x)Pについて真である。まず1=\Bigsum_hQ(h|x)を掛け、次にP(x) =\frac{P(x,h)}{P(h|x)}を用いて1=\frac{Q(h|x)}{Q(h|x)}を掛けて、項を展開する。
      \log{P}(x) =\left(\Bigsum_hQ(h|x)\right)\log{P}(x) =\Bigsum_hQ(h|x)\log\frac{P(x, h)}{P(h|x)}
           =\Bigsum_hQ(h|x)\log\frac{P(x,h)}{P(h|x)}\frac{Q(h|x)}{Q(h|x)}
           = H_{Q(h|x)} +\Bigsum_hQ(h|x)\log{P}(x,h) +\Bigsum_hQ(h|x)\log\frac{Q(h|x)}{P(h|x)}
           = KL(Q(h|x)||P(h|x)) + H_{Q(h|x)} +\Bigsum_hQ(h|x) (\log{P}(h)+\log{P}(x|h)) . (53)
よって不等式52で抜けた項は、2つの条件付き分布Q(h|x)P(h|x)の間のカルバック・ライブラー情報量である。ディープ・ビリーフ・ネットワークの下での確率を示すのに我々はPを用いることを選択したが、制限ボルツマンマシン(我々が最初のレベルの制限ボルツマンマシンと呼ぶことになる制限ボルツマンマシン)の下での確率を示すのにQを用い、等式の中でQ(h|x)が最初のレベルの制限ボルツマンマシンの、見える層が与えられた条件での隠れた層の分布であるように選ぶことにしよう。最初のレベルの制限ボルツマンマシンをQ(x|h)=P(x|h)であるように定義する。一般にP(h|x)\neq{Q}(h|x)である。これは、最初の層の隠れたベクトル\rm{\bold{h}}^1=h上の周辺分布P(h)はディープ・ビリーフ・ネットワークの上位の層によって決定されるが、制限ボルツマンマシンの周辺分布Q(h)は制限ボルツマンマシンのパラメータ群にのみ依存するからである。