3.1.ローカル・カーネルの理論的限界――Learning Deep Architectures for AI

Learning Deep Architectures for AIの翻訳です。

3.1.ローカル・カーネルの理論的限界


ここでは、ローカル・カーネル・マシンの制限に関する正式な結果について考察する。ローカル・カーネルは高度に変化する関数をとらえるのに不十分である、という考えは、Bengio他 (2006), BengioとLe Cun (2007)でいくつかの特定の場合について定式化された。ひとつの結果は以下の通りである。


定理3.1. 学習問題が、分布Pからのサンプルについて、与えられた誤差レベルをガウシアン・カーネル・マシン(式2)で達成するためには、fがある直線に沿って少なくとも2k回符号を変更しなければならない(つまり、分類機の場合、充分良い判断面はその直線と少なくとも2k回交わらなければならない)ような問題であるとする。すると、このカーネル・マシンが少なくともk個のベース(非ゼロの\alpha_i)を、よって少なくともk個の訓練例を持たなければならない。


図3:点線は判断面を19回横切る。定理3.1に従えば、また直感もそれを支持するように、それを学習するには、ガウシアンのアフィン結合で、個々のガウシアンがこの関数の凹凸の一つをとらえるような10個のガウシアンが必要である。


ある関数をガウシアン・カーネル・マシンで表現したい場合、その関数内の変化(「凹凸」)の数と同じ数の例が必要であることを、この定理は述べている。図3に示すように、関数は多数の変化を持ち得る(例、正弦曲線)し、それでも、それらの変化は相互依存しているためにずっとコンパクトに表現可能であり得る。異なる学習アルゴリズムはそれを学習するのに、少ないパラメータで(よって少ない例しか必要としない)大域的な規則性(繰り返しパターン)を活用出来る、ということは想像できる。対照的に、ガウシアンのアフィン結合では、定理3.1が示すように、少なくとも\left[\frac{m}{2}\right]=10個のガウシアンが必要である。ローカル評価子では、曲線内の繰り返しパターンの新しい例に対処するのに、より多くの例が必要であることはもっともらしいことである。高次元の複雑な課題について、判断面の複雑さは、ローカル・カーネル法を用いた場合すぐに学習を非現実的なものにするだろう。もし曲線が多くの変化を持ち、これらの変化が内在する規則性を持って互いに関係しているのでないならば、ローカル評価子より飛び抜けてうまくいく学習アルゴリズムはないだろう、ということも主張できるだろう。しかし、これらの変化のよりコンパクトな表現を探すことは価値があるだろう。というのはもし見つかるならば、それはより良い汎化をもたらす可能性があり、特に訓練集合に見られない変化についてそうだからである。もちろん、対象関数内に補足可能な規則性が潜在している場合にのみ、これは起きるが、これらは我々がAIのために学習したい機能である。


別のタイプの多様性はパリティ関数によって示される。そこでは、入力空間の任意の方向での小さな変化が、希望する出力での大きな変化に対応する。この場合、ガウシアン・カーネル・マシンで必要な例の数は、入力の次元についての指数関数になることを示すことが出来る(Bengio他, 2006)。


定理3.2.  f(x)=b+\Bigsum_{i=1}^{2^d}\alpha_iK_{\sigma}(x_i,x)が、幅\sigmaが同じで点x_i\in\{-1,1\}^dを中心とするガウシアンのアフィン結合であるとする。もしfパリティ問題を解くとすれば、少なくとも2^{d-1}個の非ゼロ係数\alpha_iが存在する。


パリティ関数が我々がAIでより興味を持つ種類の関数を代表でないことのひとつの理由は、対象関数が入力の順序に依存しないことであることに注意。また、パリティO(d)個のユニットで(そしてO(d^2)個のパラメータで)浅いニューラル・ネットワークで表現出来る。この解は、入力ベクトルxスカラーs=\Bigsum_ix_iに投影することは、パリティを計算するのに必要な情報を保存している、という事実を利用している。正しい答を決定するためにsd+1個の間隔のどれに落ちるかをを考えれば十分であり、これを達成するのにd個のしきい値ユニットで充分である。


よって、このセクションで検討した理論的結果はただ示唆に富むだけであって、我々がAIのために表現したい関数のための学習アルゴリズムがローカル評価子であってはならないことを証明してはいない。