8.制限ボルツマンマシンの一般化と対照分岐――Learning Deep Architectures for AI
Learning Deep Architectures for AI の翻訳です。
8.制限ボルツマンマシンの一般化と対照分岐
制限ボルツマンマシンを、パラメータ化の大きなクラスを含むように一般化することを試みよう。そのクラスには先に我々が検討してきた本質的に同じアイディアと学習アルゴリズム(対照分岐)が簡単に適用出来る。我々は制限ボルツマンマシンを以下のように一般化出来る。一般化された制限ボルツマンマシンは入力ベクトルと隠れたベクトルを持つ、エネルギー・ベースの確率的モデルで、そのエネルギー関数は、との両方が因数分解出来るようなものである。この定義は、エネルギー関数のパラメータ化について形式化することが出来る。
定理8.1. かつであるような、式11の形のモデルに関するエネルギー関数は
. (46)
の形を持たなければならない。
証明。 の因数分解を達成するために、我々は式18で、エネルギー関数が(毎にひとつの項の)についての和の形に書くことが出来なければならない、ということをすでに示した。これは、は、あるとについて、と書くことが出来るという制約を与える。同様の議論でただし[tex;x]との役割を逆にしたものを用いて、あるとについてという制約を得る。もしが式46の形に書けるならば、明らかにこれら2つの制約は満足される。一方、(だけに、あるいはだけに、あるいはペアだけに依存しない)別の形の項を、式46の右辺に加えることを考える。すると、上記の2つの制約のうちひとつは、満足しなくなる。よって、上の等式は両方の因数分解仮定を満足する最も一般的な定式化である。 □
隠れたユニットの値と入力の値がバイナリの場合、この新しい定式化は実際には、なんら追加の表現力をもたらさない。確かにはの2 × 2の構成に従って、最大でも4つの異なる値しか取ることが出来ないが、の2次多項式として書き換えることが常に出来る。しかし、とはバイアス項に入れることが出来、は、(分割関数によって相殺されるので)問題にならない大域追加定数に入れることが出来る。
一方あるいはが実数値ならば、相互作用のより高いキャパシティのモデル化を、たぶんノンパラメトリックな、例えば、相互作用をより良くモデル化するために徐々に項をに追加して、想像することが出来る。さらに、条件付密度またはからのサンプル抽出は、が複雑な関数であっても扱い易いだろう、というのは単にこれらは1次元の密度であるからである。そこから効率的な近似サンプル抽出と数値積分が(たとえば、入れ子になった副間隔あるいはビンにわたっての密度の累計を計算することにより)容易だからである。
この解析は制限ボルツマンマシンの基本的な限界をも強調する。それは、そのパラメータ化は変数の間のペアに関する相互作用だけを考慮していることである。それは、は隠れているからであり、我々は、について可能な周辺分布にわたって完全な表現力をなおも持ったまま望むだけの数の隠れたユニットを持つことが出来る、ということである。セクション6.6で検討した、制限ボルツマンマシンの他の変形は3方向の相互作用を導入することを可能にする(Memisevic & Hinton, 2007)。
対照分岐はこの一般化された制限ボルツマンマシン定式化に適用出来るのだろうか? 定理7.3はやはり適用出来る。さらに、log尤度勾配展開におけるギブスチェーンの最初のステップだけを考察するという系7.4 を一般化して、二項制限ボルツマンマシンのための、CD-に似た更新ルールを得ることを、示すことが出来る。
定理8.2.エネルギー関数が式46の形であるような、一般化された制限ボルツマンマシンを考察する。ギブスチェーンの最初のステップに現れる項だけを、定理7.3の打ち切られたlog尤度展開の勾配の確率的評価子と一緒に考察する時、全ての中間の勾配項は互いに相殺して、勾配評価子は直接には最初のペアと最後のペアにのみ依存する。例えばのパラメータについては
(47)
ここでは、チェーン内の番目の隠れたベクトルの番目の要素であり、についても同様であり、期待値はの条件付けでのマルコフチェーンに渡ってのものである。
証明。との項は余分のの項によって表現可能なので、証明からこれらを無視出来ることに注意。エネルギー関数の定義と、上に示した条件の因数分解を用いることによって、
(48)
と
(49)
を得る。それらを微分し、マルコフチェーンに関して期待値をとると、log の分母の勾配がlog の分子の勾配を打消し、同様にlog の分母の勾配がlog の分子の勾配を打ち消すことを見い出す。よって、級数の打ち切りによって残りを無視すると、式42からはlog の分子の勾配とlog の分母の勾配だけが残る。 □
よって、式46の形のエネルギー関数を持つ制限ボルツマンマシンを一般化する時、ギブスチェーンは(定理8.1のおかげで)、モデルからデータをサンプル抽出するためであっても学習のためであっても、やはり容易に実行出来、CD-アルゴリズムはパラメータ群を徐々に調整するために、
(50)
で与えられるパラメータ更新で、実行できる。ここには確率的勾配降下のための学習レートである。大部分のパラメータ化においては、の特定の要素を特定のに依存させることに(、そして合計は必要でないことに)注意。と(Welling et al., 2005; Bengio et al., 2007)で述べられた他の変形の場合に、エネルギーの異なる形と、隠れたユニットと入力ユニットの値の許される集合について、我々はアルゴリズム1を回復する。