12.3. 反応形成:カリキュラムつきの訓練――Learning Deep Architectures for AI

Learning Deep Architectures for AI の翻訳です。

12.3. 反応形成:カリキュラムつきの訓練


人間は、人間の社会で機能する大人として訓練されるのに約20年を必要とする。その訓練は、新しい抽象概念の学習を容易にするために以前に学んだ概念を利用して、さまざまな概念をさまざまな時に紹介する、教育システムやカリキュラムに基づいて、高度に組織化されている。学習機械をカリキュラムで訓練するというアイディアは少なくとも(Elman, 1993)までさかのぼることが出来る。その基本的なアイディアは小さいところから始め、タスクのより簡単な局面やより簡単なサブタスクを学習し、次に徐々に難易度を高めるというものである。表現の構築という観点からは、ここで提言されているのは、低レベルの抽象概念を把握する表現を最初に学習し、次にそれらを利用して、データ内のより複雑な構造を説明するのに必要な、やや高レベルの抽象概念を学習するために、それらを組合せる、ということである。どの例を提示するかとそれらをどの順番に提示するかを選ぶことで、訓練を指導することが出来、学習が達成されるスピードを増加させることが出来る。このアイディアは動物の訓練に普通に利用され、反応形成と呼ばれている。(Skinner, 1958; Peterson, 2004).


反応形成とカリキュラムの使用は、連続法と見なすことも出来る。この目的で、訓練分布\hat{P}から来るデータをモデル化するという学習問題を考察しよう。ここでのアイディアは、与えられたスケジュールに従って分布からの例の抽出の確率の重み付けを変化させ、「最も容易な」例から出発し、徐々に、より抽象的な概念を示す例のほうへ移行する、というものである。スケジュールの時点tで、我々は分布\hat{ P}_tから訓練する。ここで、\hat{P}_1=\hat{P}であり、\hat{P}_0は学習が容易であるように選ばれている。任意の連続法と同様に、スケジュール内の時点tで学習者が極小に到達した時に、つまり学習者が(\hat{P}_tから抽出された)以前に提示された例の習得に成功した時に、我々はスケジュールに沿って進む。tにおける小さな変化を、訓練分布内の例の抽出の確率における滑らかな変化に対応づけることにより、容易に学習出来る問題から始まり、望まれた訓練分布で終わる、連続的な道筋を我々は構築することが出来る。


反応形成/カリキュラムと貪欲層毎のアイディアとの間には関連が存在する。両方の場合、高レベルの抽象概念は、一旦、適切な、より低レベルの抽象概念が学習されたならば、よりうまく学習出来るという考えを我々は利用したい。層毎の方法の場合、以前に学習した概念を積み重ねるやり方で徐々にキャパシティを追加することで、これは達成される。カリキュラムの場合、より進んだ概念の多くの例を示す前に、より単純な概念が実際に学習されることを確実にするように、訓練例を制御する。人間が新しい考えをコンパクトに表現するのに必要な概念を理解していないならば、その新しい概念を把握するのが難しいことが示唆しているように、より進んだ概念の複雑な実例を示すことは、一般に時間の無駄になりがちである。


学習者と訓練分布あるいは環境に加えて、カリキュラムのアイディアと共に我々は教師を導入する。教師はスケジュールを決めるために、以下の2つの情報源を使うことが出来る。(a)この順番で提示した時により簡単に学ぶことが出来るという、概念の順番に関する事前知識、と、(b)カリキュラムの新しい材料に進む時を決定するための、学習者の進捗の監視、である。教師は、「簡単すぎる」(学習者は、これらの例を考慮するために自分のモデルを変更する必要がないだろう)と「難しすぎる」(学習者は、これらの例を考慮出来るような段階的な変化を起こすことは出来ないため、それらはたぶん異常値や特別な場合として扱われる。つまり汎化を促進しない)の間の歩み寄りであるように、新しい例について困難さのレベルを選択しなければならない。