８．制限ボルツマンマシンの一般化と対照分岐――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

目次はこちら

８．制限ボルツマンマシンの一般化と対照分岐

制限ボルツマンマシンを、パラメータ化の大きなクラスを含むように一般化することを試みよう。そのクラスには先に我々が検討してきた本質的に同じアイディアと学習アルゴリズム（対照分岐）が簡単に適用出来る。我々は制限ボルツマンマシンを以下のように一般化出来る。一般化された制限ボルツマンマシンは入力ベクトル $x$ と隠れたベクトル $h$ を持つ、エネルギー・ベースの確率的モデルで、そのエネルギー関数は、 $P(h|x)$ と $P(x|h)$ の両方が因数分解出来るようなものである。この定義は、エネルギー関数のパラメータ化について形式化することが出来る。

定理8.1. $P(h|x)=\prod_iP(hi|x)$ かつ $P(x|h)=\prod_jP(x_j|h)$ であるような、式11の形のモデルに関するエネルギー関数は
　　　　　　 $\rm{Energy}(x, h)=\Bigsum_j\phi_j(x_j)+\Bigsum_i\xi(h_i)+\Bigsum_{i,j}\eta_{i,j}(h_i,x_j)$ .　　　 (46)
の形を持たなければならない。

証明。　 $P(h|x)$ の因数分解を達成するために、我々は式18で、エネルギー関数が（ $h_i$ 毎にひとつの項の） $i$ についての和の形に書くことが出来なければならない、ということをすでに示した。これは、 $\rm{ Energy }(x, h)$ は、ある $\beta$ と $\gamma_i$ について、 $\rm{ Energy }(x, h)=-\beta(x)+\Bigsum_i\gamma_i(x,h_i)$ と書くことが出来るという制約を与える。同様の議論でただし[tex;x]と $h$ の役割を逆にしたものを用いて、ある $\alpha$ と $\rho_j$ について $\rm{Energy}(x, h)=-\alpha(h)+\Bigsum_j\rho_j(x_j,h)$ という制約を得る。もし $\rm{Energy}(x, h)$ が式46の形に書けるならば、明らかにこれら２つの制約は満足される。一方、（ $h_i$ だけに、あるいは $x_j$ だけに、あるいはペア $(h_i,x_j)$ だけに依存しない）別の形の項を、式46の右辺に加えることを考える。すると、上記の２つの制約のうちひとつは、満足しなくなる。よって、上の等式は両方の因数分解仮定を満足する最も一般的な定式化である。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　□

隠れたユニットの値と入力の値がバイナリの場合、この新しい定式化は実際には、なんら追加の表現力をもたらさない。確かに $\eta_{i,j}(h_i,x_j)$ は $(h_i,x_j)$ の2 × 2の構成に従って、最大でも４つの異なる値しか取ることが出来ないが、 $(h_i,x_j)$ の２次多項式 $a+bh_i+ cx_j+dh_ix_j$ として書き換えることが常に出来る。しかし、 $b$ と $c$ はバイアス項に入れることが出来、 $a$ は、（分割関数によって相殺されるので）問題にならない大域追加定数に入れることが出来る。

一方 $x$ あるいは $h$ が実数値ならば、 $(h_i,x_j)$ 相互作用のより高いキャパシティのモデル化を、たぶんノンパラメトリックな、例えば、相互作用をより良くモデル化するために徐々に項を $\eta_{i,j}$ に追加して、想像することが出来る。さらに、条件付密度 $P(x_j|h)$ または $P(h_i|x)$ からのサンプル抽出は、 $\eta_{i,j}$ が複雑な関数であっても扱い易いだろう、というのは単にこれらは１次元の密度であるからである。そこから効率的な近似サンプル抽出と数値積分が（たとえば、入れ子になった副間隔あるいはビンにわたっての密度の累計を計算することにより）容易だからである。

この解析は制限ボルツマンマシンの基本的な限界をも強調する。それは、そのパラメータ化は変数の間のペアに関する相互作用だけを考慮していることである。それは、 $h$ は隠れているからであり、我々は、 $x$ について可能な周辺分布にわたって完全な表現力をなおも持ったまま望むだけの数の隠れたユニットを持つことが出来る、ということである。セクション6.6で検討した、制限ボルツマンマシンの他の変形は３方向の相互作用を導入することを可能にする(Memisevic & Hinton, 2007)。

対照分岐はこの一般化された制限ボルツマンマシン定式化に適用出来るのだろうか？　定理7.3はやはり適用出来る。さらに、log尤度勾配展開におけるギブスチェーンの最初の $k$ ステップだけを考察するという系7.4 を一般化して、二項制限ボルツマンマシンのための、CD- $k$ に似た更新ルールを得ることを、示すことが出来る。

定理8.2.エネルギー関数が式46の形であるような、一般化された制限ボルツマンマシンを考察する。ギブスチェーン $x_1\Rightar{h}_1\Rightar{x}_2\Rightar{h}_2\Rightar...x_k\Rightar{h}_k$ の最初の $k$ ステップに現れる項だけを、定理7.3の打ち切られたlog尤度展開の勾配の確率的評価子と一緒に考察する時、全ての中間の勾配項は互いに相殺して、勾配評価子は直接には最初のペア $(x_1,h_1)$ と最後のペア $(x_k,h_k)$ にのみ依存する。例えば $\eta_{i,j}$ のパラメータについては
　　　　 $\Bigsum_{s=1}^{t-1}E\left[\frac{\partial\log{P}(x_s|h_s)}{\partial\theta}+\frac{\partial\log{P}(h_s|x_{s+1})}{\partial\theta}\right]=E\left[\Bigsum_{i,j}\frac{\partial\eta_{i,j}(h_{1,i},x_{1,j})}{\partial\theta}-\Bigsum_{i,j}\frac{\eta_{i,j}(h_{k,i},x_{k,j})}{\partial\theta}\right]$ 　　　　　(47)
ここで $h_{k,i}$ は、チェーン内の $k$ 番目の隠れたベクトル $h_k$ の $i$ 番目の要素であり、 $x_{k,j}$ についても同様であり、期待値は $x_1$ の条件付けでのマルコフチェーンに渡ってのものである。

証明。 $\phi_j$ と $\xi_i$ の項は余分の $\eta_{i,j}$ の項によって表現可能なので、証明からこれらを無視出来ることに注意。エネルギー関数の定義と、上に示した条件の因数分解を用いることによって、
　　　　 $P(h_{s,i}|x_s)=\frac{\exp\left(\Bigsum_j\eta_{i,j}(h_{s,i},x_{s,j})\right)}{\exp\left(\Bigsum_{\tilde{h}_{s,i}}\Bigsum_j\eta_{i,j}(\tilde{h}_{s,i},x_{s,j})\right)}$ 　　　　　　(48)
と
　　　　 $P(x_{s+1,j}|h_s)=\frac{\exp\left(\Bigsum_i\eta_{i,j}(h_{s,i},x_{s+1,j})\right)}{\exp\left(\Bigsum_{\tilde{x}_{s+1,i}}\Bigsum_j\eta_{i,j}(h_{s,i},\tilde{x}_{s+1,j})\right)}$ 　　　　　　(49)
を得る。それらを微分し、マルコフチェーンに関して期待値をとると、log $P(x_s|h_s)$ の分母の勾配がlog $P(h_s|x_{s+1})$ の分子の勾配を打消し、同様にlog $P(h_s|x_{s+1})$ の分母の勾配がlog $P(x_{s+1}|h_{s+1})$ の分子の勾配を打ち消すことを見い出す。よって、級数の打ち切りによって残り $E\left[\frac{\partial\log{P}(x_{k+1})}{\partial\theta}\right]$ を無視すると、式42からはlog $P(x_1|h_1)$ の分子の勾配とlog $P(h_k|x_{k+1})$ の分母の勾配だけが残る。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　□

よって、式46の形のエネルギー関数を持つ制限ボルツマンマシンを一般化する時、ギブスチェーンは（定理8.1のおかげで）、モデルからデータをサンプル抽出するためであっても学習のためであっても、やはり容易に実行出来、CD- $k$ アルゴリズムはパラメータ群を徐々に調整するために、
　　　　 $\Delta\theta=\Bigsum_{i,j}\frac{\partial\eta_{i,j}(h_{1,i},x_{1,j})}{\partial\theta}-\Bigsum_{i,j}\frac{\partial\eta_{i,j}(h_{k,i},x_{k,j})}{\partial\theta}$ 　　　　　　(50)
で与えられるパラメータ更新で、実行できる。ここに $\epsilon$ は確率的勾配降下のための学習レートである。大部分のパラメータ化においては、 $\theta$ の特定の要素を特定の $\eta_{i,j}$ に依存させることに（、そして合計は必要でないことに）注意。 $\eta_{i,j}(h_{1,i},x_{1,j})=W_{ij}h_{1,i}x_{1,j}$ と(Welling et al., 2005; Bengio et al., 2007)で述べられた他の変形の場合に、エネルギーの異なる形と、隠れたユニットと入力ユニットの値の許される集合について、我々はアルゴリズム１を回復する。