４．分散表現の学習――Learning Deep Architectures for AI

Learning Deep Architectures for AIの翻訳です。

目次はこちら

４．分散表現の学習

機械学習とニューラル・ネットワークの研究における古いアイディアで、次元ののろい、と、ローカル汎化の制限を扱うのに役立ちそうなものは、分散表現のアイディアである (Hinton, 1986; Rumelhart, McClelland, & the PDP Research Group, 1986b; Bengio, Ducharme, & Vincent, 2001)。整数 $i\in\{1,2,...,N\}$ のための漫画的なローカル表現は、１個の１と $N-1$ 個のゼロを持つ $N$ ビットのベクトル $r(i)$ で、 $r_j(i)=\mathbb{1}_{i=j}$ は、 $N$ のワン・ホット表現と呼ばれる。同じ整数の分散表現は、 $\log_2N$ ビットのベクトルで、これは $i$ を表現するずっとコンパクトな仕方である。同じ数の可能な構成について、分散表現は潜在的に、非常にローカルな表現より指数関数的によりコンパクトである。実際問題としては、我々は連続値ベクトルであるようなローカル表現を用いる。そこではセクション３で検討したガウシアン・カーネルを用いた時のように、 $i$ 番目の要素が、入力と、プトロタイプあるいは領域中心、の間の、ある距離に従って変化する。分散表現では入力パターンは、互いに排他的でない、そして統計的に独立ですらないかもしれない特徴の集合によって表現される。例えば、クラスタは本質的に互いに排他的なので、クラスタリング・アルゴリズムは分散表現を構築しないが、一方で、独立要素分析(Bell & Sejnowski, 1995; Pearlmutter & Parra, 1996)と主要要素分析（PCA）(Hotelling, 1933)は分散表現を構築する。

$r_i(x)\in\{0,1,...,M\}$ $i\in\{1,...,N\}$ であるような、入力パターン $x$ についての離散分散表現 $r(x)$ を考察しよう。個々の $r_i(x)$ は、 $x$ の $M$ 個のクラスへの分類と見ることが出来る。個々の $r_i(x)$ は、 $x$ 空間を $M$ 個の領域に分割するが、異なる分割は、潜在的に指数関数的な、 $r_i(x)$ の様々な構成に対応する、 $x$ 空間内の可能な領域の数を引き起こすために、組み合わせることが出来る。若干の構成は両立しないので不可能であることに注意。例えば、言語のモデル化において、単語のローカル表現は、ボキャブラリー表の中のインデックスで、あるいは、等価的に、ボキャブラリーのサイズと同じ数のビットを持つワン・ホット・コードで、そのIDを直接コード化することだろう。他方、分散表現はその単語を、いくつかの統語論的な特徴（例、それが持ち得る品詞類に関する分布）と、形態論的な特徴（それはどの接尾辞や接頭辞を持ち得るか？）と、意味論的な特徴（それは動物の一種の名前か？）によって表現されるだろう。クラスタリングにおけるのと同じように、我々は個別のクラスを構築するが、クラスの組合せの可能な数は膨大である。我々はマルチクラスタリングと呼んでいるものを得る。クラスタリングは１つの分割と、一般に入力に関する情報の損失を引き起こすが、一方で、マルチクラスタリングは入力空間の分割の集合を提供する。個々の分割のどの領域に入力例が属するかを特定することは、入力パターンの、非常に豊かな、ことによると、どの情報も失わない記述を形成する。入力が個々の分割のどの領域に属するかを指定する記号のタプルは、入力を新しい空間に変換することとみなすことが出来、その空間ではデータの統計的構造と、その中での変化の要因が、もつれをほどかれているだろう。これは、前のセクションで検討したように、木の集合が表現出来る、 $x$ 空間の一種の分割に対応する。

教師あり学習の分野では、複数層ニューラル・ネットワーク(Rumelhart et al., 1986b, 1986a)とボルツマンマシン(Ackley, Hinton, & Sejnowski, 1985)が、隠れた層に分散された内部表現を学習することを目的に導入されてきた。上の言語学的な例におけるのと異なり、その目的は、学習アルゴリズムに、分散表現を構成する特徴を発見させることである。２つ以上の隠れた層を持つ複数層ニューラル・ネットワークでは、数個の表現が存在し、個々の層に１つずつ存在する。分散表現の複数レベルを学習することは、困難だがやりがいのある最適化問題を伴い、この問題はこの論文の残りの部分で中心となる。