１１．ディープ・ビリーフ・ネットワークの層の同時最適化のための確率変動境界――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

目次はこちら

１１．ディープ・ビリーフ・ネットワークの層の同時最適化のための確率変動境界

このセクションでは、ディープ・ビリーフ・ネットワークを訓練するためのアルゴリズムの数学的基礎について検討する。ディープ・ビリーフ・ネットワークのlog尤度はイェンゼンの不等式を用いて下限を設定出来、以下に議論するように、これは(Hinton et al., 2006)で導入され、セクション10で説明した貪欲層毎の訓練戦略を正当化することが出来る。ディープ・ビリーフ・ネットワークの結合分布についての式51から始め、表記法を軽くするために $\rm{\bold{h}}^1$ （最初のレベルの隠れたベクトル）を $h$ と書き、任意の条件分布 $Q(h|x)$ を導入することにより
　　　　　　 $\log{P}(x) = \log\Bigsum_hP(x,h)$
　　　　　　　　　　　 $= \log\Bigsum_h\frac{Q(h|x)P(x, h)}{Q(h|x)}$
　　　　　　　　　　　 $\ge\Bigsum_hQ(h|x)\ log\frac{P(x,h)}{Q(h|x)}$
　　　　　　　　　　　 $=\Bigsum_hQ(h|x) (\log{P}(x, h)-\log{Q}(h|x))$
　　　　　　　　　　　 $= H_{Q(h|x)} +\Bigsum_hQ(h|x) (\log{P}(h)+\log{P}(x|h))$ .　　　 (52)
を得る。ここで $H_{Q(h|x)}$ は分布 $Q(h|x)$ のエントロピーである。この不等式が見落としていることを見るために、我々は別の導出を用いることが出来、これは今度も任意の $Q(h|x)$ と $P$ について真である。まず $1=\Bigsum_hQ(h|x)$ を掛け、次に $P(x) =\frac{P(x,h)}{P(h|x)}$ を用いて $1=\frac{Q(h|x)}{Q(h|x)}$ を掛けて、項を展開する。
　　　　　　 $\log{P}(x) =\left(\Bigsum_hQ(h|x)\right)\log{P}(x) =\Bigsum_hQ(h|x)\log\frac{P(x, h)}{P(h|x)}$
　　　　　　　　　　　 $=\Bigsum_hQ(h|x)\log\frac{P(x,h)}{P(h|x)}\frac{Q(h|x)}{Q(h|x)}$
　　　　　　　　　　　 $= H_{Q(h|x)} +\Bigsum_hQ(h|x)\log{P}(x,h) +\Bigsum_hQ(h|x)\log\frac{Q(h|x)}{P(h|x)}$
　　　　　　　　　　　 $= KL(Q(h|x)||P(h|x)) + H_{Q(h|x)} +\Bigsum_hQ(h|x) (\log{P}(h)+\log{P}(x|h))$ . (53)
よって不等式52で抜けた項は、２つの条件付き分布 $Q(h|x)$ と $P(h|x)$ の間のカルバック・ライブラー情報量である。ディープ・ビリーフ・ネットワークの下での確率を示すのに我々は $P$ を用いることを選択したが、制限ボルツマンマシン（我々が最初のレベルの制限ボルツマンマシンと呼ぶことになる制限ボルツマンマシン）の下での確率を示すのに $Q$ を用い、等式の中で $Q(h|x)$ が最初のレベルの制限ボルツマンマシンの、見える層が与えられた条件での隠れた層の分布であるように選ぶことにしよう。最初のレベルの制限ボルツマンマシンを $Q(x|h)=P(x|h)$ であるように定義する。一般に $P(h|x)\neq{Q}(h|x)$ である。これは、最初の層の隠れたベクトル $\rm{\bold{h}}^1=h$ 上の周辺分布 $P(h)$ はディープ・ビリーフ・ネットワークの上位の層によって決定されるが、制限ボルツマンマシンの周辺分布 $Q(h)$ は制限ボルツマンマシンのパラメータ群にのみ依存するからである。