13.2. なぜスパース表現であって、次元削減ではないのか――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

13.2. なぜスパース表現であって、次元削減ではないのか


ここで我々は、もし人が(脳の中でのように)固定サイズ表現を持とうとするならば、1例当たりのさまざまな数のビットを可能にするのに、スパース表現がより効率的である、ということを主張する。学習理論(Vapnik, 1995; Li & Vitanyi, 1997)によれば、良い汎化を得るには、訓練集合全体を符号化するのに必要なビットの総数が、訓練集合の大きさに比べて小さいことが充分である。興味のある多くの領域で、さまざまな例はさまざまな情報内容を持つ。これは、例えば画像圧縮アルゴリズムが通常、異なる画像について(それらが全て同じ次元を持っている場合でも)異なるビット数を使用する理由である。


他方、次元圧縮アルゴリズムは、PCAとICAのような線形のものであっても、あるいはLLEやIsomapのような非線型のものであっても、個々の例を同じ低次元空間に写像する。上の議論に照らすと、個々の例を可変長の表現に写像するのがより効率的であろう。議論を簡単にするために、この表現がバイナリ・ベクトルであると仮定しよう。もし我々が個々の例を固定長表現に写像することを要求されるのであれば、大部分の例について、その固定長ビット・ベクトルを、より小さな変数サイズのコードに圧縮することを同時に許容しながら、その表現が、例の大多数を表現するのに充分な自由度を持つように選ぶことが、良い解決法であろう。さて、我々は2つの表現を持っている。1つは、固定長の表現で、これを我々は予測するための、判断するための入力として使用するだろう。もうひとつは可変長表現で、これは原則として固定長表現から圧縮ステップによって得ることが出来る。例えば、もし固定長表現ベクトル内のビットがゼロである確率が高いのであれば(つまり、まばら(スパーシティ)条件)、大部分の例について(まばらさの量による平均で)固定長ベクトルを圧縮するのは容易である。


まばらさ(スパーシティ)に賛成するもうひとつの議論は、固定長表現は、さらに処理されるための入力として使用されようとするので、それは解釈しやすくあるべきである、というものである。高度に圧縮された符号化は通常、複雑にもつれており、全てのビットを考慮にいれない限り、コード内のビットのどの部分集合も実際には解釈出来ない。その代り、個々のビットやこれらのビットの小さな部分集合が解釈できる、つまり、入力の意味のある側面に対応し、データ内の変化の要因をとらえるような性質を持つ、固定長スパース表現を我々は好む。例えば、入力として談話信号では、もし若干のビット群が話者の特徴を符号化し、他のビット群が発音された音素の一般的特徴を符号化するならば、我々はデータ内の変化の要因の若干についてそのもつれを解いてしまっており、要因の若干の部分集合はある特定の予測タスクに十分であろう。


表現のまばらさ(スパーシティ)を正当化する別の仕方はRanzato et al. (2008)の中で提案された。分割関数が明示的に最大化されていない、あるいは近似的に最大化されているだけ、にもかかわらず、学んだ表現に関する(スパーシティのような)他の制約が用いられる限り、人はどのように良いモデルを得るかを、この観点は実際に説明する。オートアソシエータが学習した表現がスパースであるとすると、そのオートアソシエータは、可能な全ての入力パターンをうまく再構成出来ない。訓練集合についての平均再構成誤差を最小にするために、オートアソシエータはデータ分布の統計的規則性をとらえる表現を見つけなければならない。まず、Ranzato et al. (2008)が自由エネルギーを再構成誤差の形式と関連付けた(隠れたユニット構成に渡る合計を、それらに渡る最大化に置換えた場合)。よって、訓練集合における再構成誤差を最小化することは、要するに自由エネルギーを最小化することに、つまり、式13の分子を最大化することになる。分母(分配関数)はちょうど、可能な全ての入力構成に渡る分子の合計なので、我々は大部分の入力構成について再構成誤差を高くしたい。もし(入力をその表現に写像する)エンコーダが、可能な入力パターンの大部分をうまく表現出来ないように(つまり、大部分の可能な入力パターンについて再構成誤差が高いように)制約を受けるならば、これは達成できる。ひとつの方法は、表現に関するスパーシティのペナルティを課すことであり(Ranzato et al. 2008)、それは訓練判断基準に組込むことが出来る。この方法で、分配関数に関係するlog尤度勾配の項は、完全に回避され、隠れたユニット・コードに関するスパーシティ・ペナルティに置き換わる。興味深いことに、このアイディアは潜在的に、制限ボルツマンマシンの訓練に用いることが出来るであろう。それは分配関数のlogの勾配の近似評価子を用いるだけである。もし隠れた表現にペナルティ・スパーシティを加えるならば、対照分岐のネガティブ・フェーズで得られた入力例の再建近傍だけでなく、大部分の可能な入力構成の自由エネルギーを増加させることを保証することによって、その近似の弱点を埋め合わせることが出来るだろう。