6.6.2. 条件つき制限ボルツマンマシンと時間的制限ボルツマンマシン――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

目次はこちら

6.6.2. 条件つき制限ボルツマンマシンと時間的制限ボルツマンマシン

条件つき制限ボルツマンマシンは、若干のパラメータが自由ではなく、その代わり、他の確率変数のパラメータ化された関数であるような制限ボルツマンマシンである。例えば、式21における入力バイアス $b$ 、隠れたバイアス $c$ 、重み行列 $W$ のパラメータ $(b, c,W)$ を持つ、観測されたベクトル $X$ と隠れたベクトル $H$ の間の結合分布 $P(X,H)$ についての制限ボルツマンマシンを考察しよう。このアイディアは、隠れたバイアス $c$ が文脈変数 $C$ のアフィン関数であるような文脈依存制限ボルツマンマシンのために、Taylor, Hinton, and Roweis (2006)の中で導入された。よって、この制限ボルツマンマシンは $P(X,H|C)$ を、あるいは $H$ で周辺化して $P(X|C)$ を表現する。一般に、制限ボルツマンマシンのパラメータ群 $\theta$ は、パラメータ群 $\omega$ でパラメータ化された関数 $\theta=f(C;\omega)$ として書き表すことが出来る。制限ボルツマンマシンの対照分岐アルゴリズムは、条件つき制限ボルツマンマシンの場合に容易に一般化出来る。パラメータ $\theta$ についての対照分岐勾配評価子 $\Delta\theta$ は、 $\omega$ についての勾配評価子を得るために単純に逆伝播出来る。
　　　　　　　 $\Delta\omega=\Delta\theta\frac{\partial\theta}{\partial\omega}$ 　　　　　　(35)
Taylor et al. (2006)で研究されたアフィンの場合 $b=\beta+MC$ （ $b$ と $\beta$ と $C$ は列ベクトルで、 $M$ は行列）、条件パラメータについての対照分布更新は単純に
　　　　　　　 $\Delta\beta=\Delta{b}$
　　　　　　　 $\Delta{M}=\Delta{b}C'$ 　　　　　　　　　　　(36)
となる。ここで最後の乗算は外積であり、 $\Delta{b}$ はCD- $k$ が与える更新値である。

このアイディアは、人間の動きについてのシーケンシャル・データでの条件分布 $P(x_t|x_{t_1}, x_{t_2}, x_{t_3})$ をモデル化するのに適用されて成功した(Taylor et al., 2006)。ここで $x_t$ は、歩行や走行のような人間の動きのモーション・キャプチャ・データから計算した関節角度と他の幾何学的特徴のベクトルである。興味深いことに、これは、以前サンプルされた $k$ 個のフレームから $t$ 番目のフレームを次々にサンプルすることで、つまり
　　　　　　　 $P(x_1,x_2,...,x_T)\approx{P}(x_1,...,x_k)\prod_{t=k+1}^TP(x_t|x_{t-1},...,x_{t-k})$ .　　　　　　(37)
と近似することで、現実的な人間の動きの一連の流れを生成することを可能にする。初期のフレームは、特殊なnull値を文脈として用いることで、あるいは $P(x_1, . . . x_k)$ のための別のモデルを使うことで生成出来る。.

Memisevic and Hinton (2007)で実証されたように、バイアスだけでなく重みも、文脈変数についての条件付きにすることは有用であり得る。その場合、我々は、相互作用パラメータ $U_{ijk}$ によって、入力ユニット $x_i$ とかくれたユニット $h_j$ と文脈ユニット $c_k$ の間の３方向の相互作用をモデル化する能力を導入して、自由度の数を非常に増加させる。この方法は、動画内の画像 $X$ とその前の画像とともに用いられ、そのモデルは流れの場をとらえることを学習する(Memisevic & Hinton, 2007)。

隠れた変数 $H_t$ （いわゆる状態を持つ、シーケンシャル・データの確率モデルは、シーケンス内のさまざまな時刻 $t$ での隠れた変数間の時間依存性をとらえることによって、多くのものを得ることが出来る。これは、隠れた変数が１次のマルコフチェーン（そこでは直接の依存性は $H_t$ と $H_{t+1}$ の間にしかない）であるとモデルが考えるだけである場合でさえ、隠れマルコフ・モデル (Rabiner & Juang, 1986)が長いシーケンス内の依存性をとらえることを可能にするものである。隠れマルコフ・モデルにおける隠れた変数表現 $H_t$ がローカルである（ $H_t$ の可能な全ての値は列挙され、特定のパラメータがこれらの値の各々に関係する）が、時間的制限ボルツマンマシンは状態の分散表現を構築するために提案されてきた(Sutskever& Hinton, 2007)。このアイディアは、上に示した条件付き制限ボルツマンマシンの拡張であるが、そこでは文脈は過去の入力だけでなく状態の過去の値も含む。例えば、我々は
　　　　　　　 $P(H_t,Xt|H_{t_1},X_{t_1}, . . . ,H_{t_k},X_{t_k})$ 　　　　　 (38)
のモデルを構築する。ここで文脈は図８に示すように $C_t = (H_{t_1},X_{t_1}, . . . ,H_{t_k},X_{t_k})$ である。時間的制約ボルツマンマシンが生成するシーケンスのサンプル抽出は、（個々の時間ステップで、制限ボルツマンマシンからサンプル抽出するのに用いた、同じモンテカルロ・マフコフチェーン近似で）条件付き制限ボルツマンマシンにおけるのと同じように出来るが、入力が与えられた場合の隠れた状態のシーケンスの正確な推定は、もはや扱い易くはない。その代わりSutskever and Hinton (2007)は、隠れたシーケンスの事後確率の平均場フィルタリング近似を用いることを提案する。

図８：シーケンシャル・データをモデル化するための時間的制限ボルツマンマシンの例。隠れた変数間の依存性を含むもの。双方向矢印は方向のない接続、つまり制限ボルツマンマシン、を示す。一方向矢印は条件依存性を示す。 $(x_t,h_t)$ 制限ボルツマンマシンは、過去の入力と過去の隠れたベクトルの値によって条件づけられる。