１２．大域最適化戦略――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

目次はこちら

１２．大域最適化戦略

ディープ・アーキテクチャは分布のより効率的な表現を、よってより良い汎化を約束するが、先にセクション５で検討したように、より困難な最適化問題という代価を支払って、それらは手に入るように見える。ここでは、連続法(Allgower & Georg, 1980)の原則に基づいて、この困難な最適化問題を扱うのに役立つ既存の業績と方法の間に関連をつける。それらは大域最適を得ることを保証してくれないが、これらの方法は、分子の構造を含む困難な最適化問題の近似解を見つける計算化学では特に役立ってきた(Coleman & Wu, 1994; More & Wu, 1996; Wu, 1997)。基本的な考え方は、問題の平滑化バージョンが大きな絵を表すという直感によって、最初に問題の平滑化したバージョンについて解き、徐々により滑らかさを少なくして考えるというものである。１パラメータのコスト関数tex:C_{\lambda}(\theta)]の属を定義し、そこでは $C_1$ が我々が実際に最小化したい判断基準である一方で、 $C_0$ が容易に最適化出来る（たぶんについて凸）ものであるとする。最初に $C_0(\theta)$ を最小にし、次に $\theta$ を $C_{\lambda}(\theta)$ の局所最小に留めたまま $\lambda$ を徐々に増加させる。通常 $C_0$ は $C_1$ の高度に平滑化したバージョンであり、 $\theta$ は $C_1$ の（もし大域的でないとしても）支配的な最小の、引力を持つ盆地に徐々に移動する。

12.1.　連続法としてのディープ・ビリーフ・ネットワークの貪欲層毎訓練

セクション10で説明した、ディープ・ビリーフ・ネットワークのための貪欲層毎訓練アルゴリズムは、以下のように、近似的な連続法とみなすことが出来る。第一に、制限ボルツマンマシン（と、特にディープ・ビリーフ・ネットワークの最上レベルの制限ボルツマンマシン）は、結びついたパラメータ群を持つ、無限有向グラフモデルに展開出来ることを、思いだそう（セクション11.1）。貪欲層毎手続きの個々のステップで、最上レベルの制限ボルツマンマシンのパラメータ群を、最上のすぐ下のレベルのパラメータ群から解放する。モデルの構造は同じまま、シグモイド・ビリーフ層の無限の連なりであるが、層毎手続きの個々のステップで、我々はパラメータ群に関する制約を変化させる。最初には全ての層はつながっている。最初の制限ボルツマンマシンを訓練した（つまり、この制約のもとで最適化した）のちに、我々は最初のレベルのパラメータを残りから解放する。２番目の制限ボルツマンマシンを訓練後（つまり、若干緩い制約の元での最適化後）、我々は２番目のレベルのパラメータを残りから解放する。などなど。我々は、訓練判断基準の連続体の代わりに、（たぶん）徐々により困難になる最適化問題の離散シーケンスを持つ。最初の $k$ レベルが訓練されたのち、処理を貪欲にすることにより、さそれらのパラメータ群を固定し、 $(k+1)$ 番目だけを最適化する。つまり、１つの制限ボルツマンマシンを訓練する。

レベル１つをディープ・ビリーフ・ネットワークに追加する個々のステップ $d$ で、 $\gamma_k = 0$ の時、 $(k+1)$ 番目のレベル（とそれ以上）のパラメータ群は、やはり $k$ 番目のパラメータ群とつながっているが、一方、 $\gamma_k=1$ の時、それらはその制約から完全に自由である、というように、連続パラメータ $\gamma_k$ を導入することで、この層毎の方法を連続法に変形することは困難ではないだろう。しかしその現在の離散のバージョンであっても、全ての層が一緒に訓練される従来の最適化技法との比較実験で証明されたように、この分析は層毎訓練方法の、より良い最適に達することに関する良い性能についての説明を示唆している (Bengio et al., 2007)。