6.6.3. 因数分解制限ボルツマンマシン――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

目次はこちら

6.6.3. 因数分解制限ボルツマンマシン

いくつかの確率的言語モデルでは、個々の単語の分散表現を学習することが提案されてきた(Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990; Miikkulainen & Dyer, 1991; Bengio et al., 2001, 2003)。単語のシーケンスをモデル化する制限ボルツマンマシンについて、ボキャブラリーの中の個々の単語についての分散表現を、自動的に学習するパラメータ化を持つことは便利であろう。これは本質的にMnih and Hinton (2007)が提案したことである。彼らは重み行列 $W$ の２つの要因への因数分解を用いる。１つは入力サブシーケンス内の位置に依存するもので、もうひとつは依存しないものである。入力サブシーケンス $(w_1,w_2,...,w_k)$ が与えられた場合の隠れたユニットの確率の計算を考察しよう。ここで個々の単語 $w_t$ は、ワン・ホット・ベクトル（位置 $w_t$ での1を除いて全て0） $v_t$ で表現され、これらのベクトルは、入力ベクトル $x=(v_1,...,v_k)$ に連結される。行列 $W$ を $x$ に直接適用する代わりに、以下を行う。最初に、個々の単語の記号 $w_t$ を行列 $R$ によって $d$ 次元ベクトル $R.,{w_t} = Rv_t$ ただし $t\in\{1...k\}$ に写像する。次に、結合ベクトル $(R.,{w_1} ,R.,{w_2} , . . . ,R.,{w_k}) = (Rv_1, . . .Rv_k)$ に行列 $B$ を掛け算する。よって $W=B(R\;R . . .R)$ 。ただし $(R\;R . . .R)$ は $R$ の（積ではなくて）結合を示す。このモデルは、n-グラムズに基づく最先端の言語モデルより良いサンプル外log尤度を生成する(Mnih & Hinton, 2007)。この因数分解は上で紹介した時間的制限ボルツマンマシンと組み合わせることが出来、汎化能力のさらなる向上をもたらしている (Mnih & Hinton, 2007)。