11.1.　制限ボルツマンマシンの無限有向ビリーフ・ネットワークへの展開――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

目次はこちら

11.1.　制限ボルツマンマシンの無限有向ビリーフ・ネットワークへの展開

ディープ・ビリーフ・ネットワーク用の貪欲訓練を正当化するために、尤度の上記の分解を用いる前に、我々はディープ・ビリーフ・ネットワーク内の $P(\rm{\bold{h}}^1)$ と、最初のレベルの制限ボルツマンマシンが与えられた場合の、対応する周辺分布 $Q(\rm{\bold{h}}^1)$ の間の関係を確立する必要がある。興味深い観察は、 $\rm{\bold{h}}^2$ の次元が $\rm{\bold{h}}^0=x$ の次元に等しい限り、その $h^1$ の周辺分布が最初の制限ボルツマンマシン $\rm{\bold{h}}^1$ の周辺分布に等しい、つまり、 $P(\rm{\bold{h}}^1)=Q(\rm{\bold{h}}^1)$ 、であるようなディープ・ビリーフ・ネットワークが存在する、ということである。

これを見るために、その重み行列が最初のレベルの制限ボルツマンマシンの転置であるような２番目の制限ボルツマンマシンを考察しよう（これが、次元の一致が必要な理由である）。よって、（重み行列を転置した時の）制限ボルツマンマシンの結合分布における見えるユニットと隠れたユニットの役割の対称性により、２番目の制限ボルツマンマシンの見えるベクトルに渡っての周辺分布は、最初の制限ボルツマンマシンの隠れたベクトルの周辺分布 $Q(\rm{\bold{h}}^1)$ に等しい。

別の興味深い説明が(Hinton et al., 2006)の中でなされている。最初の制限ボルツマンマシンについて $x$ と $\rm{\bold{h}}^1$ の間を行き来し、偶数の $t$ でサンプル抽出された見えるベクトルと、奇数の $t$ でサンプル抽出された隠れたベクトルを持つ、 $t=-\infty$ で始まり $t=0$ で停止する無限ギブスサンプリング・マルコフチェーンを考察しよう。このチェーンは、結び付けられたパラメータ群を持つ（全ての偶数ステップでは重み行列 $W'$ を用い、一方、全てをの奇数ステップでは重み行列 $W$ を用いる）、無限有向ビリーフ・ネットワークとみなすことが出来る。あるいは、 $\tau$ のパリティに従って重み行列 $W$ または $W'$ を持つ１つの制限ボルツマンマシンによって任意の $t=-\infty$ から $t=\tau$ までのサブチェーンをまとめることが出来、図10に示すように（入力層を数に入れなくて） $1-\tau$ 層のディープ・ビリーフ・ネットワークを得る。この議論は、２番目のレベルの重みが１番目のレベルの重みの転置に等しいような２層ディープ・ビリーフ・ネットワークは、単一の制限ボルツマンマシンと等価である、ということをも示している。

図10：左。１つの制限ボルツマンマシンは、睦びつけられた重み（本文参照）を持つ無限有向ビリーフ・ネットワークに展開することが出来る。層の指標のパリティによって重み行列 $W$ またはその転置が用いられる。確率変数のこの系列は（ $t$ が大きい場合） $x_t$ を生成するギブス・マルコフチェーンに対応する。右では、１つのディープ・ビリーフ・ネットワーク内の最上レベルの制限ボルツマンマシンも同じように展開することが出来、ディープ・ビリーフ・ネットワークは、若干の層（底のいくつかの層を除いた全て）が結びついた無限有向グラフ・モデルであることを示す。