11.1. 制限ボルツマンマシンの無限有向ビリーフ・ネットワークへの展開――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

11.1. 制限ボルツマンマシンの無限有向ビリーフ・ネットワークへの展開


ディープ・ビリーフ・ネットワーク用の貪欲訓練を正当化するために、尤度の上記の分解を用いる前に、我々はディープ・ビリーフ・ネットワーク内のP(\rm{\bold{h}}^1)と、最初のレベルの制限ボルツマンマシンが与えられた場合の、対応する周辺分布Q(\rm{\bold{h}}^1)の間の関係を確立する必要がある。興味深い観察は、\rm{\bold{h}}^2の次元が\rm{\bold{h}}^0=xの次元に等しい限り、そのh^1の周辺分布が最初の制限ボルツマンマシン\rm{\bold{h}}^1の周辺分布に等しい、つまり、P(\rm{\bold{h}}^1)=Q(\rm{\bold{h}}^1)、であるようなディープ・ビリーフ・ネットワークが存在する、ということである。


これを見るために、その重み行列が最初のレベルの制限ボルツマンマシンの転置であるような2番目の制限ボルツマンマシンを考察しよう(これが、次元の一致が必要な理由である)。よって、(重み行列を転置した時の)制限ボルツマンマシンの結合分布における見えるユニットと隠れたユニットの役割の対称性により、2番目の制限ボルツマンマシンの見えるベクトルに渡っての周辺分布は、最初の制限ボルツマンマシンの隠れたベクトルの周辺分布Q(\rm{\bold{h}}^1)に等しい。


別の興味深い説明が(Hinton et al., 2006)の中でなされている。最初の制限ボルツマンマシンについてx\rm{\bold{h}}^1の間を行き来し、偶数のtでサンプル抽出された見えるベクトルと、奇数のtでサンプル抽出された隠れたベクトルを持つ、t=-\inftyで始まりt=0で停止する無限ギブスサンプリング・マルコフチェーンを考察しよう。このチェーンは、結び付けられたパラメータ群を持つ(全ての偶数ステップでは重み行列W'を用い、一方、全てをの奇数ステップでは重み行列Wを用いる)、無限有向ビリーフ・ネットワークとみなすことが出来る。あるいは、\tauパリティに従って重み行列WまたはW'を持つ1つの制限ボルツマンマシンによって任意のt=-\inftyからt=\tauまでのサブチェーンをまとめることが出来、図10に示すように(入力層を数に入れなくて)1-\tau層のディープ・ビリーフ・ネットワークを得る。この議論は、2番目のレベルの重みが1番目のレベルの重みの転置に等しいような2層ディープ・ビリーフ・ネットワークは、単一の制限ボルツマンマシンと等価である、ということをも示している。



図10:左。1つの制限ボルツマンマシンは、睦びつけられた重み(本文参照)を持つ無限有向ビリーフ・ネットワークに展開することが出来る。層の指標のパリティによって重み行列Wまたはその転置が用いられる。確率変数のこの系列は(tが大きい場合)x_tを生成するギブス・マルコフチェーンに対応する。右では、1つのディープ・ビリーフ・ネットワーク内の最上レベルの制限ボルツマンマシンも同じように展開することが出来、ディープ・ビリーフ・ネットワークは、若干の層(底のいくつかの層を除いた全て)が結びついた無限有向グラフ・モデルであることを示す。