13.3. 教師無し学習が重要である他の理由――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

13.3. 教師無し学習が重要である他の理由


この論文の主張のひとつは、AIを目的とするディープ・アーキテクチャのための、成功する学習アルゴリズムを構築するには、強力な教師なし、あるいは半教師あり学習が重要な構成要素である、というものである。この仮説を支持する議論を、ここで短く取り上げる。

  • 未知の将来のタスク:もし学習主体が将来の学習タスクが何かを知らないならば、それは将来に扱わなければならなくなるだろうが、もし、そのタスクが学習主体が今観察できる世界(つまり、確率変数)について定義されるであろうことをそれが知っているならば、タスクをうまくいかせる何かを学ぶことが出来るように、この世界について可能な限り多くの情報を集めることが非常に合理的にみえる。
  • 一旦、良い高レベル表現が学ばれたならば、他の学習タスク(例えば、教師あり学習、あるいは強化学習)はずっと容易になるだろう。例えば、カーネル・マシンは、適切なカーネルをつまり、適切な特徴空間を、用いるならば、非常に強力になることを、我々は知っている。同様に、適切な特徴の線形結合によって行動が本質的に得られるような場合に保証がある、強力な強化学習アルゴリズムを我々は知っている。適切な表現がどうあるべきかを我々は知らないが、もしそれが入力データにおける変動の目立った要因をとらえ、それらのもつれをほどくならば、人は安心することだろう。
  • 層毎教師なし学習:これはセクション5.3で検討した。学習の多くは、アーキテクチャの1層またはサブ層でローカルに利用可能な情報を用いて実行することが出来るので、大きなファン・イン要素を持つ長いチェーンを伝播する教師あり勾配における仮説的問題を回避する。
  • 前記2つの点をつなげると、そこからの勾配降下(局所最適化)が良い解を生み出すような領域で、教師あり学習強化学習のパラメータを、教師なし学習は設定出来る、というアイディアになる。Bengio et al. (2007)で研究された場合について、これは実験的に確認された。
  • 過学習の傾向がより少ない:教師なし学習教師あり学習より過学習の傾向が少ないということが議論された(Hinton, 2006)。この直感は以下の通りである。判別式分類を実行する場合、その変動が決定境界近くで重要であるような関数を学習する必要があるだけである。入力の変化の非常に小さな部分集合は、正しい分類を見いだすのに適切であろう。一方、教師なし学習は、入力内の全ての変動をとらえようとする。よって、それはずっと多くのキャパシティを要求し、同じことであるが、等しいキャパシティと等しい数の訓練例では過学習の傾向がより少ない。教師なし学習は、教師あり学習システムの文脈で初期化や正則化のために使用することが出来る。
  • モデルに、入力から目標への依存性だけでなく入力分布の統計的規則性をもとらえるように要求することにより、最適化に課せられた余分の制約は、(入力分布の良いモデル化に対応しない)若干のローカル最小を回避するのに役立つだろう。