ボツルマンマシン - 工場統計力学（建設中！）

英語版WikipediaのBoltzmann Machineのページの翻訳。

ボルツマンマシン
ボルツマンマシンは1985年にジェフリー・ヒントンとテリー・セジュスキーが発明した確率再帰型ニューラル・ネットワークの一種である。ボルツマンマシンはホップフィールド・ネットの確率的、生成的な版と見ることが出来る。これは内部表現を学習する能力を持つニューラル・ネットワークの初期の例の１つであり、困難な組合せ問題を表現し、（充分な時間があれば）それを解くことが出来る。それらはその訓練アルゴリズムの局所性とヘッブ的な性質のゆえに、またその並列性とその動態が単純な物理的過程と似ていることのゆえに理論的に魅力的である。以下に検討する多くの課題のため、接続に制限のないボルツマンマシンは機械学習や機械推論における実際の問題に役立つとは証明されていないが、もし接続を適切に制限するならばその学習は実際の問題に役立つのに十分なくらい効率的になり得る。
これは統計力学におけるボルツマン分布にちなんで名づけられ、ボルツマン分布はその標本関数で使われている。

ボルツマンマシングラフ表現。いくつかの重みを記入している。個々の無方向の線は依存関係を示し重み $w_{ij}$ で重みづけされている。この例では３つの隠れたユニット（青）と４つの見えるユニット（白）がある。これは制限ボトルネックマシンではない。

構造

ボルツマンマシンはホップフィールド・ネットワークと同じように、ネットワークで定義された「エネルギー」を持つ、ユニットのネットワークである。それはバイナリ・ユニットも持つが、ホップフィールド・ネットワークとは異なり、ボルツマンマシンのユニットは確率的である。ボルツマンマシンの大域エネルギー $E$ はホップフィールド・ネットワークの帯域エネルギーと同じ形を持つ。
[tex:E = -\left(\sum_{i

ユニットの状態の確率

重みの対称行列を仮定した時、１つのユニットが0(off)または1(on)を取ることによって起きる大域エネルギーの差は $\Delta E_i$ と書かれ、以下で与えられる。
$\Delta E_i = \sum_j w_{ij} \, s_j + \theta_i$
これは２つの状態のエネルギーの差として表現出来る。
$\Delta E_i = E_{\text{i=off}} - E_{\text{i=on}}$
次にボルツマン因子（状態のエネルギーはその状態の確率の対数に負の係数で比例するというボルツマン分布の特性）に従う相対確率を持つ個々の状態のエネルギーを代入する。
$\Delta E_i = -k_B\,T\ln(p_{\text{i=off}}) - (-k_B\,T\ln(p_{\text{i=on}}))$
ここで $k_B$ はボルツマン定数であり、温度 $T$ の人工的な記法に吸収される。次に項を配置し直してユニットがonである確率とoffである確率の和が1であることを考慮する。
$\frac{\Delta E_i}{T} = \ln(p_{\text{i=on}}) - \ln(p_{\text{i=off}})$
$\frac{\Delta E_i}{T} = \ln(p_{\text{i=on}}) - \ln(1 - p_{\text{i=on}})$
$\frac{\Delta E_i}{T} = \ln\left(\frac{p_{\text{i=on}}}{1 - p_{\text{i=on}}}\right)$
$-\frac{\Delta E_i}{T} = \ln\left(\frac{1 - p_{\text{i=on}}}{p_{\text{i=on}}}\right)$
$-\frac{\Delta E_i}{T} = \ln\left(\frac{1}{p_{\text{i=on}}} - 1\right)$
$\exp\left(-\frac{\Delta E_i}{T}\right) = \frac{1}{p_{\text{i=on}}} - 1$
いまや最終的に、 $i$ 番目のユニットがonである確率、 $p_{\text{i=on}}$ 、について解くことが出来る。
$p_{\text{i=on}} = \frac{1}{1+\exp(-\frac{\Delta E_i}{T})}$
ここでスカラー $T$ はシステムの温度と呼ばれる。この関係はさまざまな種類のボルツマンマシンにおける確率の式に現れるロジスティック関数の起源である。

平衡状態

ユニットを繰り返し選び、上の式に従ってその状態を設定することでネットワークは動作する。ある温度で充分長く動作させたのち、ネットワークの大域状態の確率はボルツマン分布に従って、大域状態のエネルギーにのみ依存するようになり、処理が始まった時の初期状態に依存しない。これは、大域状態の確率の対数がそのエネルギーについて線形であることを意味する。マシンが「熱的平衡状態」にある時この関係は正しく、大域状態の確率分布は収束することを意味する。もし高い温度からネットワークの動作を始め、低い温度で熱的平衡に到達するまで徐々に下げるならば、エネルギーが大域的な最小値のまわりに変動する分布に収束するだろう。このプロセスはシミュレーテッド・アニーリングと呼ばれる。
もしマシンが大域状態に収束する確率が、我々がこれらの状態の上に設定する外部分布に従うようにネットワークを訓練したいならば、最も確率の大きい大域状態が最小のエネルギーを持つように我々は重みを設定する必要がある。これは以下の訓練手順によって行われる。

訓練

ボルツマンマシンのユニットは「見える」ユニット $V$ と「隠れた」ユニット $H$ に分けられる。見えるユニットは、「環境」から情報を受け取るユニットである。つまり、訓練集合は、集合 $V$ 上のバイナリ・ベクトルの集合である。訓練集合上の分布は $P^{+}(V)$ で示される。
先に議論したように、大域状態上の分布はボルツマンマシンが熱的平衡に到達すると収束する。この分布を、隠れたユニット上の分布を周辺化して（不問にして） $P^{-}(V)$ で示す。
我々の目標は、マシンが（最終的に）生成するであろう分布 $P^{-}(V)$ を用いて「現実の」分布 $P^{+}(V)$ を近似することである。２つの分布の類似の程度を測るために、カルバック・ライブラー情報量 $G$
$G = \sum_{v}{P^{+}(v)\ln\left({\frac{P^{+}(v)}{P^{-}(v)}}\right)}$
を用いる。ここに和は $V$ の可能な全ての状態について行う。 $G$ は重みの関数である、というのは重みは状態のエネルギーを決定し、エネルギーはボルツマン分布が約束するように $P^{-}(v)$ を決定するからである。よって我々は $G$ について勾配降下アルゴリズムを用いることが出来、与えられた重み $w_{ij}$ は $G$ の重みについての偏微分を引くことによって変化する。
ボルツマンマシンの訓練には２つのフェーズがあり、我々はそれらを繰り返して切り替える。ひとつは「正の」フェーズであり、そこでは見えるユニットの状態は訓練集合から（ $P^{+}$ に従って）抽出された特定のバイナリ（0か1の）状態ベクトルに固定される。もうひとつは「負の」フェーズであり、そこではネットワークは自由に動作することが許される。つまり、外部データによってｓの状態が決定されるようなユニットはない。充分驚くべきことであるが、与えられた重み、 $w_{ij}$ についての勾配は非常に簡単な等式で与えられる（アクリー、他によって証明された）。
$\frac{\partial{G}}{\partial{w_{ij}}} = -\frac{1}{R}[p_{ij}^{+}-p_{ij}^{-}]$
ここで
$p_{ij}^{+}$ は、マシンが正のフェーズで平衡状態にある時にユニット $i$ と $j$ の両方がonである確率である。
$p_{ij}^{-}$ は、マシンが負のフェーズで平衡状態にある時にユニット $i$ と $j$ の両方がonである確率である。
$R$ は学習レートを表す。
熱的平衡状態ではネットワークが自由に作動している時に任意の大域状態 $s$ の確率 $P^{-}(s)$ はボルツマン分布で与えられる（よって「ボルツマンマシン」という名前がついた）という事実から、この結果は導かれる。
注目すべきことに、この学習ルールは、重みを変更するのに必要な唯一の情報が「局所的」情報によって提供されるので生理学的にもかなり説得力がある。つまり、接続（生物学的に言えばシナプス）は、つながっている２つのニューロン以外のいかなるものついてもその情報を必要としない。これは生物学的にみて、バックプロパゲーションのような他の多くのニューラル・ネットワークの訓練アルゴリズムにおいて１つの接続が必要とする情報よりずっと現実的である。
EMアルゴリズムは機械学習で広範に使われるが、ボルツマンマシンの訓練はそれを用いない。カルバック・ライブラー情報量を最小化することにより、それはデータの尤度の対数を最大化することに等価である。よって、訓練手続きは、観測されるデータの尤度の対数に関する勾配上昇を実行する。これはEMアルゴリズムと対照的である。EMアルゴリズムでは隠れたノードの事後分布はMステップの間、完全なデータの尤度の期待値の最大化の前に計算されなければならない。
バイアスの訓練ルールは似ているが、１つのノードの活性化状態のみを用いる。
$\frac{\partial{G}}{\partial{\theta_{i}}} = -\frac{1}{R}[p_{i}^{+}-p_{i}^{-}]$

課題

ボルツマンマシンは、理論的にはむしろ一般的な計算手段である。例えばもしマシンが写真について訓練されたならば、マシンは理論的には写真の分布をモデル化し、例えば部分的な写真を完全にするのにそのモデルを用いることが出来る。
あいにくボルツマンマシンには、マシンの規模がある程度以上大きくなると正確に学習することを止めてしまうようにみえるという実用においての深刻な問題がある。これにはいくつかの原因があり、最も重要なものとして下記のものがある：

マシンが平衡状態の統計を収集するために作動しなければならない時間は、マシンの大きさにより、また接続の強度により、指数関数的に長くなる。

接続されたユニットの活性化確率が0と1の中間にあると、接続の強さがより変動しやすくなり、いわゆる変動のわな（variance trap）をもたらす。その基本的な影響は、活性化が飽和するまでノイズが、接続の強度をランダムウォークに従うようにしてしまうことである。

制限ボルツマンマシン

制限ボルツマンマシンのグラフ表現。４個の青いユニットは隠れたユニットを表し、３個の赤いユニットは見えるユニットを表す。制限ボルツマンマシンでは隠れたユニットと見えるユニットの間にのみ接続（依存関係）があり、同じタイプのユニット間には（隠れた−隠れた、にも、見える―見える、にも）接続はない。

メイン記事：制限ボルツマンマシン

一般的なボルツマンマシンでは学習は実際的ではないが、隠れたユニット間の層内接続を許さない「制限ボルツマンマシン」とか「RBM」と呼ばれる構造では学習は非常に効率的に実行可能である。ひとつのRBMを訓練したのち、隠れたユニットの活動状態はより高レベルのRBMを訓練するためのデータとして扱うことが出来る。このRBMを積み上げる方法は隠れたユニットの多くの層を効率的に訓練するのを可能にし、それは最も一般的なディープラーニングの戦略のひとつである。新しい層が追加されるたびに生成モデル全体はより良くなる。
バイナリデータではなく実数を用いることが出来るような、制限ボルツマンマシンの拡張が存在する。高次のボルツマンマシンと共にそれはここに要点が述べられている。

制限ボルツマンマシンの実際的な応用の一例は音声認識ソフトの性能改善である。

歴史

ボルツマンマシンはホップフィールド・ネットワークの確率版である。
推論にアニールド・イジング・モデルを用いるアイディアは最初に以下の文献で述べられたとしばしば考えられている。

Geoffrey E. Hinton and Terrence J. Sejnowski, Analyzing Cooperative Computation. In Proceedings of the 5th Annual Congress of the Cognitive Science Society, Rochester, New York, May 1983.

Geoffrey E. Hinton and Terrence J. Sejnowski, Optimal Perceptual Inference. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (CVPR), pages 448–453, IEEE Computer Society, Washington, D.C., June 1983.

しかし、これらの記事はジョン・ホップフィールドによる独創性に富んだ著作のあとに現れたことに留意すべきである。ホップフィールドのこの著作では、物理学と統計力学と関係づけが始めてなされ、スピングラスに言及た。

John J. Hopfield, Neural networks and physical systems with emergent collective computational abilities, Proc. Natl. Acad. Sci. USA, vol. 79 no. 8, pp. 2554–2558, April 1982.

イジングモデルにギッブス・サンプリングを適用するアイディアはダグラス・ホフスタッターのコピーキャット・プロジェクトでも提示された。

Hofstadter, Douglas R., The Copycat Project: An Experiment in Nondeterminism and Creative Analogies. MIT Artificial Intelligence Laboratory Memo No. 755, January 1984.

Hofstadter, Douglas R., A Non-Deterministic Approach to Analogy, Involving the Ising Model of Ferromagnetism. In E. Caianiello, ed. The Physics of Cognitive Processes. Teaneck, New Jersey: World Scientific, 1987.

（エネルギー関数の符号を変えた）類似のアイディアはポール・スモレンスキーの「調和理論」にも見られる。
統計力学に由来するボルツマンマシンでの明らかなアナロジーは物理学から借用した用語集の使用をもたらし（例えば「調和」ではなく「エネルギー」）、それはこの分野で標準になった。この用語集の広い採用は、その使用が統計力学に由来するさまざまな概念や方法の借用をもたらすという事実によって促進されてきたであろう。しかし、上述した、推論にシミュレーテド・アニーリングを用いるさまざまな提案が独立したものではなかったと考える理由はない。（ヘルムホルツは物理心理学の黎明に類似の類推を行った。）
イジング・モデルは今ではマルコフ確率場の特殊な場合と考えられており、マルコフ確率場は言語学やロボティクス、コンピュータ・ビジョン、人工知能を含むさまざまな分野で広範囲の応用を見いだしている。

関連項目

制限ボルツマンマシン

マルコフ確率場

イジング・モデル

ホップフィールド・ネットワーク

条件「局所的」情報を用いる学習ルールは $G$ の逆形式 $G' = \sum_{v}{P^{-}(v)\ln\left({\frac{P^{-}(v)}{P^{+}(v)}}\right)}$ から導出出来る。

Boltzmann machine――Wikipediaより