11.ディープ・ビリーフ・ネットワークの層の同時最適化のための確率変動境界――Learning Deep Architectures for AI
Learning Deep Architectures for AI の翻訳です。
11.ディープ・ビリーフ・ネットワークの層の同時最適化のための確率変動境界
このセクションでは、ディープ・ビリーフ・ネットワークを訓練するためのアルゴリズムの数学的基礎について検討する。ディープ・ビリーフ・ネットワークのlog尤度はイェンゼンの不等式を用いて下限を設定出来、以下に議論するように、これは(Hinton et al., 2006)で導入され、セクション10で説明した貪欲層毎の訓練戦略を正当化することが出来る。ディープ・ビリーフ・ネットワークの結合分布についての式51から始め、表記法を軽くするために(最初のレベルの隠れたベクトル)をと書き、任意の条件分布を導入することにより
. (52)
を得る。ここでは分布のエントロピーである。この不等式が見落としていることを見るために、我々は別の導出を用いることが出来、これは今度も任意のとについて真である。まずを掛け、次にを用いてを掛けて、項を展開する。
. (53)
よって不等式52で抜けた項は、2つの条件付き分布との間のカルバック・ライブラー情報量である。ディープ・ビリーフ・ネットワークの下での確率を示すのに我々はを用いることを選択したが、制限ボルツマンマシン(我々が最初のレベルの制限ボルツマンマシンと呼ぶことになる制限ボルツマンマシン)の下での確率を示すのにを用い、等式の中でが最初のレベルの制限ボルツマンマシンの、見える層が与えられた条件での隠れた層の分布であるように選ぶことにしよう。最初のレベルの制限ボルツマンマシンをであるように定義する。一般にである。これは、最初の層の隠れたベクトル上の周辺分布はディープ・ビリーフ・ネットワークの上位の層によって決定されるが、制限ボルツマンマシンの周辺分布は制限ボルツマンマシンのパラメータ群にのみ依存するからである。