6.6.3. 因数分解制限ボルツマンマシン――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

6.6.3. 因数分解制限ボルツマンマシン


いくつかの確率的言語モデルでは、個々の単語の分散表現を学習することが提案されてきた(Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990; Miikkulainen & Dyer, 1991; Bengio et al., 2001, 2003)。単語のシーケンスをモデル化する制限ボルツマンマシンについて、ボキャブラリーの中の個々の単語についての分散表現を、自動的に学習するパラメータ化を持つことは便利であろう。これは本質的にMnih and Hinton (2007)が提案したことである。彼らは重み行列Wの2つの要因への因数分解を用いる。1つは入力サブシーケンス内の位置に依存するもので、もうひとつは依存しないものである。入力サブシーケンス(w_1,w_2,...,w_k)が与えられた場合の隠れたユニットの確率の計算を考察しよう。ここで個々の単語w_tは、ワン・ホット・ベクトル(位置w_tでの1を除いて全て0)v_tで表現され、これらのベクトルは、入力ベクトルx=(v_1,...,v_k)に連結される。行列Wxに直接適用する代わりに、以下を行う。最初に、個々の単語の記号w_tを行列Rによってd次元ベクトルR.,{w_t} = Rv_tただしt\in\{1...k\}写像する。次に、結合ベクトル(R.,{w_1} ,R.,{w_2} , . . . ,R.,{w_k}) = (Rv_1, . . .Rv_k)に行列Bを掛け算する。よってW=B(R\;R . . .R)。ただし(R\;R . . .R)Rの(積ではなくて)結合を示す。このモデルは、n-グラムズに基づく最先端の言語モデルより良いサンプル外log尤度を生成する(Mnih & Hinton, 2007)。この因数分解は上で紹介した時間的制限ボルツマンマシンと組み合わせることが出来、汎化能力のさらなる向上をもたらしている (Mnih & Hinton, 2007)。