３．ローカル汎化と非ローカル汎化：ローカル・テンプレートのマッチングの限界――Learning Deep Architectures for AI

Learning Deep Architectures for AIの翻訳です。

目次はこちら

３．ローカル汎化と非ローカル汎化：ローカル・テンプレートのマッチングの限界

このセクションは多くの浅いアーキテクチャでの評価子の局所性について注目する。それは高度に変化する関数を学習しようとする時に、貧弱な一般性を引き起こす。これは、高度に変化する関数は、しばしばディープ・アーキテクチャで効率的に表現出来るのであるが、学習アルゴリズムがローカル評価子であるならば効率的に表現出来ないからである。

ローカル評価子は入力空間を領域に（たぶんハードな仕方ではなくソフトな仕方で）分割し、その個々の領域での対象関数の可能な形を考慮するためにさまざまなパラメータや自由度を要求する。関数が高度に変化するので多くの領域が必要な場合、必要なパラメータの数も、よって、良い汎化を達成するのに必要な例の数もまた大きくなる。

浅くて局所的なアーキテクチャの極端な例として、最初のレベルに可能な全ての $2^n$ 個のゲートを持つ選言標準形（深さ２）論理ゲート回路を考察しよう。AND計算を適用する前に、個々のゲートについて、否定のあるいは $n$ 個の入力の全てではなく、選択から $2^n$ 個の可能性が来る(??　　The $2^n$ possibilities come from the choice, for each gate, of negating or not each of the $n$ inputs before applying the AND computation.)。個々のそのような積は最小項と呼ばれる。そのような回路を単に非常に大きなパターン照合機と見ることが出来る。より一般的には、もし特定のANDゲートで入力変数の部分集合だけが用いられているならば、そのゲートは入力パターンのより大きな集合に応答するだろう。よってゲートは入力スペースの連結領域、例えば、 $x_1 = 1$ , $x_2 = 0$ であるが $x_3$ と $x_4$ は任意の値を取り得るベクトル $x$ の集合であるような部分空間、にあるパターンに応答するテンプレート照合機である。

より一般的に、ローカル・テンプレートの照合をベースにしたアーキテクチャは、２つのレベルを持つものと見なすことが出来る。最初のレベルは入力に照合することが出来るテンプレートの集合からなる。テンプレート・ユニットは、照合の程度を示す値を出力する。２番目のレベルは、望む出力を見積もるために、これらの値を、通常、単純な線形結合で（ORのような演算で）組み合わせる。ローカル・テンプレート照合に基づくアーキテクチャのプロトタイプ的な例はカーネル・マシン
$f(x)=b+\Bigsum_i\alpha_iK(x,x_i)$ ,　　　　　　　　　　　(2)
である(Schölkopf et al., 1999a)。ここで $b$ と $\alpha_i$ は第２レベルを形成し、カーネル関数 $K(x, xi)$ は入力 $x$ を訓練例 $x_i$ と照合し、合計は訓練集合の入力パターンの全てかあるいは部分集合について行う。上の等式で $f(x)$ は、分類機の判別関数、あるいは回帰予測の出力、となり得る。 $x_i$ のまわりのある連結領域にある $x$ についてカーネル $K(x, xi) >\rho$ が真である場合、カーネルはローカルである。その領域のサイズは通常、ハイパーパラメータによって制御出来る。ローカル・カーネルの一例はガウシアン・カーネル $K(x,x_i) = e^{-||x-x_i||^2/\sigma^2}$ である。ここで $\sigma$ は $x_i$ のまわりの領域のサイズを制御している。ガウシアン・カーネルは１次元の条件 $K(u,v)=\prod_ie^{-(u_i-v_i)^2/\sigma^2}$ の積として書くことが出来るので、ソフト結合を計算しているものとみなすことが出来る。もし、全ての $i$ について $|u_i-v_i|/\sigma$ が小さいならば、パターンはマッチし、 $K(u,v)$ は大きくなる。もし $|u_i-v_i|/\sigma$ が１つの $i$ ,についてだけ大きいならば、マッチせず、 $K(u,v)$ は小さい。

カーネル・マシンのよく知られた例の中に、分類や回帰のためのサポート・ベクター・マシン（SVM）(Boser, Guyon, & Vapnik, 1992; Cortes & Vapnik, 1995)とガウシアン・プロセス(Williams & Rasmussen, 1996)がある*1が、 $k$ 番目に近い近傍アルゴリズやNadaraya-WtsonまたはParzenウィンドウ密度と回帰評価子、などのような、分類、回帰、密度評価のための古典的なノンパラメトリック学習アルゴリズムも含まれる。セクション3.2で我々は、やはりローカル・カーネル・マシンとみなすことの出来るイソマップやLLEのような多様体学習アルゴリズムや、（例毎に１つのノードを持ち、隣接する例の間に線を持つ）近傍グラフの構造に基づいた関連する半教師あり学習アルゴリズムを検討する。

ローカル・カーネルを持つカーネル・マシンはスムースネス・プライア(smoothess prior)、対象関数は滑らかである、あるいは滑らかな関数でよく近似出来る、という仮定、と呼ばれるものを利用して汎化を生み出す。例えば教師あり学習で、もし訓練例 $(x_i,y_i)$ があるならば、 $x$ が $x_i$ に近い場合、 $y_i$ にいくらかでも近い値を出力する予測機 $f(x)$ を構築するのは理にかなっている。この仮定がどのように入力空間における近さの観念を定義することを要求しているかに注意しよう。これは役に立つ仮定であるが、Bengio, Delalleau,とLe Roux (2006)、そしてBengio とLe Cun (2007)の中で行なわれた主張の１つは、そのような仮定は、対象関数が（プライアーまたはカーネルに組込まれた近接の観念に従って）入力空間内で高度に変化する場合、しばしば汎化をするのに不十分である、ということである。実際に使われている大部分のカーネルが特徴空間における内積、 $K(x,x_i)=\phi(x)\cdot\phi(x_i)$ とみなすことが出来ることを考察しよう。ここで一般に $\phi(x)$ は、入力 $x$ の高次元特徴空間への非線型変換である。よい特徴空間は、対象関数を特徴空間で表現した際にそれが滑らかであるような空間である。よって、もし対象空間が入力空間とカーネル特徴空間で高度に変化するならば、それは我々が適切な特徴空間を選ばなかったからそうなのだ、と人は正しく主張するだろう。もし我々の特徴空間がその性質、つまり $\phi(x)\approx\phi(x_i)$ の時に近似 $y\approx{y}_i$ が、 $\phi(xi)$ のまわりの小さな領域だけで成り立つ、という性質を持っていないならば、人は興味のある領域をカバーするためにそのような領域を多く必要とするだろう。あいにく、少なくとも、対象関数の興味のある変化をカバーするのに必要な領域と同じ数の訓練例が必要になるだろう。

ガウシアン・カーネルのような固定ジェネリック・カーネルの制限は、課題に関する予備知識に基づいたカーネル設計についての多くの研究の動機づけとなってきた (Jaakkola & Haussler, 1998; Schölkopf, Mika, Burges, Knirsch, Müller, Rätsch, & Smola, 1999b; Gärtner, 2003; Cortes, Haffner, & Mohri, 2004)。しかし、もし我々が、適切なカーネルを設計するための満足な予備知識を持っていなかったならば、我々はそれを学ぶことが出来るのか？　この質問もまた多くの研究の動機となり(Lanckriet, Cristianini, Bartlett, El Gahoui, & Jordan, 2002; Wang & Luk Chan, 2002; Cristianini, Shawe-Taylor, Elisseeff, & Kandola, 2002)、ディープ・アーキテクチャはこの方向における、前途有望な開拓とみなすことが出来る。ガウシアン・プロセス・カーネル・マシンは、特徴空間を学習するためにディープ・ビリーフ・ネットワークを用いて改良出来ることが示された(Salakhutdinov & Hinton, 2008)。予測は、ナマの入力表現の代わりにトップ・レベルの表現を用いることで改善され、それらは、ガウシアン・プロセスが作った予測誤差を最小にするように、ニューラル・ネットワークにバックプロパゲートされた予測誤差の勾配法を用いて、ディープ・ネットワークをチューニングすることで、さらに改善された。特徴空間はデータの表現とみなすことが出来る。よい表現は、互いに近い抽象的な特徴を共有する例を作成する。ディープ・アーキテクチャのための学習アルゴリズムは、カーネル・マシンのために良い特徴空間を学習するための方法と見なすことが出来る。

次のサブセクションでは、教師あり学習の場合の、ガウシアン・カーネルを持つカーネル・マシンの制限に関する理論的結果を概説する。それは、必要とされる例の数が、学習対象の関数の凹凸の数に関して線形に増加することを示している。サクセクション3.2では半教師ありノンパラメトリック学習アルゴリズムについての、サブセクション3.3ではデシジョン・ツリーについての、同様な結果を示す。サブセクション3.4で、滑らかさを仮定として用いること、および、極端な場合にコルモゴロフ複雑性を用いて、関数の複雑性の観念を拡張することにより、それをより強力にすることが出来る方法、に関する議論を用いて結論付ける。

*1:ガウシアン・プロセスの場合、カーネル回帰でのように、式2の $f(x)$ は予測する対象変数 $Y$ の、入力 $x$ が与えられた場合の条件期待値である。