ニューラルネットワークによるデータの次元削減(Reducing the Dimensionality of Data with Neural Networks)(4)

トロント大学ヒントン(G. E. Hinton)教授のReducing the Dimensionality of Data with Neural Networksの和訳です。

文書について訓練した場合、オートエンコーダは迅速な検索を可能にするコードを生成する。我々は、804,414件のニュースワイア・ストーリーズ*1の各々を、最も普通な語幹の文書特有の確率のベクトルとして表現し、微調整のために複数クラスクロスエントロピー誤差関数\left[-\Bigsum_ip_i\log\hat{p}_i\right]を使用して、このストーリーズの半分について2000-500-250-125-10オートエンコーダを訓練した。10個のコード・ユニットは線形であり、残りの隠れたユニットはロジスティックであった。類似性を測定するのに2つのコードの間の角のコサインが使われ、オートエンコーダは、主成分分析に基づく、良く知られた文書検索方法である潜在的意味解析(LSA: latent semantic analysis)*2より明らかに性能が優れていた(図4)。オートエンコーダ *3は、最近の非線型次元削減アルゴリズムである局所線形埋め込み(local linear embedding)よりも優れている*4




図4
(A) テスト集合文書(複数)を検索するために、テスト集合からの問合せ文書が用いられた場合の問合せとしての同じクラス内の検索された文書の割合。全402,207件の可能な問合せにおける平均。
(B) 2次元潜在的意味解析が生成したコード
(C) 2000-500-250-125-2 オートアソシエータが生成したコード


層毎事前訓練は分類や回帰分析にも使用出来る。MNIST手書き数字認識タスクの広く使われたバージョンについて、報告された最良の誤差率は、ランダムに初期化されたバックプロパゲーションで1.6%で、サポート・ベクター・マシンで1.4%である。784-500-500-2000-10ネットワークでの層毎事前訓練ののち、最急降下と小さい学習レートを用いるバックプロパゲーションは1.2%を達成した*5。事前訓練は、重み内の大部分の情報は画像のモデル化から来るので、汎化を助ける。ラベル内の非常に限られた情報が、事前訓練が見つけた重みを若干調整するためにのみ用いられる。


コンピュータが充分早く、データ集合が充分大きく、初期重みが良い解に充分近いならば、深いオートエンコーダを通るバックプロパゲーション非線型次元削減に非常に効果的であるだろうということは1980年代から明らかであった。3つの条件の全てが今では満足されている。ノンパラメトリックの手法*6 *7とは違って、オートエンコーダはデータ空間とコード空間の間の両方向に写像を与え、そして、事前訓練と微調整の両方は、時間と空間において、訓練ケースの数に線形に拡大するので、オートエンコーダは非常に大きなデータ集合に適用することが出来る。

(終)

*1:ロイター・コーパス巻2はhttp://trec.nist.gov/data/reuters/reuters.htmlで利用可能である。

*2: S. C. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, R. A. Harshman, J. Am. Soc. Inf. Sci. 41, 391 (1990).

*3:Science Onlineの教材を参照

*4:S. T. Roweis, L. K. Saul, Science 290, 2323 (2000).

*5:Science Onlineの教材を参照

*6:S. T. Roweis, L. K. Saul, Science 290, 2323 (2000).

*7:J. A. Tenenbaum, V. J. de Silva, J. C. Langford, Science 290 2319 (2000).