6.5. モデルのサンプルはネガティブな例である。――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

目次はこちら

6.5. モデルのサンプルはネガティブな例である。

エネルギーベースのモデルを訓練することは、人が訓練例を、モデルが生成したサンプルから区別しようとするような一連の分類問題を解くことによって達成出来ることを、このセクションで我々は主張する。ボルツマンマシン学習アルゴリズムでは、対照分岐におけるのと同様に、重要な要素はモデルからサンプル抽出する（たぶん近似的に）能力である。log尤度を向上させる際にこれらのサンプルの値を理解する洗練されたやり方は、ブースティングを持つ接続を用いるもので、Welling, Zemel, and Hinton (2003)で導入された。このアイディアを正式にではなく説明することから始め、次にそれを定式化し、生成モデルの、モデル・サンプルを訓練例から分離する分類基準を持った訓練に基づいたアルゴリズムを正当化する。混合尤度基準は、訓練例では尤度が高く、それ以外では低いことを望む。もし我々がすでにモデルを持っており、その尤度を高めたいのであれば、モデルが高い確率を置いた（サンプルによって表現される）場所と訓練例がある場所の間の対照がモデルをどう変化させるかを示す。仮に我々がある判断面によって訓練例をモデルサンプルから近似的に分離出来たならば、判断面の一方の側（より多くの訓練例が存在する側）でのエネルギー関数の値を小さくし、反対側（より多くの、モデルからのサンプルが存在する側）で大きくすることによって尤度を増加させることが出来たことだろう。数学的に、式16で与えられた $\rm{FreeEnergy}(x)$ の（あるいは、もし明示的に隠れた変数を導入しないならば $\rm{Energy}(x)$ の）パラメータ群に関する尤度の勾配を考察しよう。さて、ほとんど $\frac{1}{2}$ と違わない（出来れば、正しい側では、そうでない側よりも多い）出力確率 $q(x)=P(y=1|x)$ を生成することだけが出来る、高度に規則化された（? regularized）２クラス確率的分類機を考察しよう。 $q(x)=\rm{sigm}(a(x))$ としよう。つまり $a(x)$ は判別関数、または、自由エネルギーにちょうど似た正規化されていない条件log尤度である。この確率的分類機についての平均条件log尤度勾配は
　　　 $E_{\hat{P}}\left[\frac{\partial\log{P}(y|x)}{\partial\theta}\right]=E_{\hat{P}}\left[\frac{\partial(y\log{q}(x)+(1-y)\log(1-q(x)))}{\partial\theta}\right]$
　　　　　　 $=E_{\hat{P}}\left[(1-q(x))\frac{a(x)}{\partial\theta}|y=1\right]-E_{\hat{P}}\left[q(x)\frac{\partial{a}(x)}{\partial\theta}|y=0\right]$
　　　　　　 $\approx\frac{1}{2}E_{\hat{P}}\left[\frac{\partial{a}(x)}{\partial\theta}|y=1\right]-\frac{1}{2}E_{\hat{P}}\left[\frac{\partial{a}(x)}{\partial\theta}|y=0\right]$ 　　　　　(34)
である。ここで最後の等号性は、分類機が高度に規則化された場合に成立する。出力重みが小さい場合、 $a(x)$ はゼロに近く、 $q(x)\approx\frac{1}{2}$ であり、よって、 $(1-q(x))\approx{q}(x)$ である。log尤度勾配についてのこの表現は正確に、我々が訓練例をポジティブな例( $y=1$ )と、モデル・サンプルをネガティブな例( $y=0$ )と解釈する時、その尤度が自由エネルギーの項（式16）に表現されるようなエネルギーベースのモデルのために得られた勾配に対応する。この結果を解釈するひとつの方法は、もし仮に訓練サンプルをモデル・サンプルから分離する分類機を我々が向上出来たならば、訓練サンプルの側により多くの確率を置くことにより我々はモデルのlog尤度を向上出来たであろう、というものである。モデルからサンプル（たぶん近似の）を得ることが出来ると仮定して、実際上これは、その判別関数が生成モデルの自由エネルギーとして定義される（掛け算因子まで）分類機によって達成出来るであろう。このアイディアの特定の変形は、専門家の積において専門家を追加するための、ブースティングに似た増加のアルゴリズムを正当化するために用いられた(Welling et al., 2003)。