12.2. 温度の制御――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

目次はこちら

12.2. 温度の制御

１つの制限ボルツマンマシンのlog尤度の最適化でさえ、困難な最適化問題であろう。（CD- $k$ で得られるような）確率的勾配の使用と小さな初期重みは、やはり連続法に近く、連続法に容易に変化させることが分かっている。１つの制限ボルツマンマシンの正則化パス(Hastie, Rosset, Tibshirani, & Zhu, 2004)に対応する最適化問題の族を考察しよう。例えば、パラメータ群の $l_1$ または $l_2$ 正則化での、 $\lambda\in(0,1]$ でパラメータ化された訓練判断基準の族
　　　　　　　　 $C_\lambda(\theta)=-\Bigsum_i\log{P}_\theta(x_i)-||\theta||^2\log\lambda$ 　　　　　　(63)
である。 $\lambda\rightar0$ の時、 $\theta\rightar0$ となり、制限ボルツマンマシンlog尤度が $\theta$ について凸になるのを示すことが出来る。 $\lambda\rightar1$ の時、正規化はない（もし訓練集合が小さいならば、 $\lambda$ の中間の値は汎化に関してより良いであろうことに注意）。制限ボルツマンマシンのバイアスと重みの大きさを制御することはボルツマンマシン内の温度（エネルギー関数のスケーリング係数）を制御することに等しいことに注意。高い温度は、高度に確率的なシステムに対応し、その極限では、因数分解可能で、入力に渡って一様な分布である。低い温度はより決定論的なシステムに対応し、そこでは可能な構成の小さな部分集合だけが妥当である。

興味深いことに、小さな重みから出発した確率的勾配降下法は、だいたい以下の正則化パスで、徐々に重みが増加することを許容する。早期停止は、訓練と検証集合の誤差についての最良のパラメータ群の維持の間、検証集合に関する性能の監視に基づく、よく知られた効率的なキャパシティ制御技法である。
早期停止と（マージンに加えて） $l_2$ 正則化の間の数学的関係はすでに確立されている(Collobert & Bengio, 2004)。式63の $\lambda$ の個々の値に対応する極小が、単純に重みを確率的勾配経路をたどらせることによって、追跡される保証はない。確率的勾配アルゴリズムを、最適化が $\lambda$ の現在値の極小に充分近い時に $\lambda$ を徐々に増加させるように、若干変更することは困難ではないだろう。同じ技法が、ディープ教師ありニューラル・ネットワークのような、機械学習で発見された他の困難な非線型最適化問題のために拡張されるだろうことに注意。我々は大域最適解から出発して徐々に極小を追跡し、重い正則化から出発して正則化がほとんどないかまったくないところへゆっくり移動したい（？　We want to start from a globally optimal solution and gradually track local minima, starting from heavy regularization and moving slowly to little or none.）。