5.1.コンボリューショナル・ニューラルネットワーク――Learning Deep Architectures for AI

Learning Deep Architectures for AIの翻訳です。

5.1.コンボリューショナル・ニューラルネットワーク


ディープ・ニューラル・ネットワークは一般的に、うまく訓練するには難しすぎることが分かったが、注目すべき例外が存在する。コンボリューショナル・ニューラル・ネットワークである。コンボリューショナル・ネットは視覚系構造からインスピレーションを得、特にHubelとWiesel (1962)が提案したモデルからインスピレーションを得ている。ニューロン間のこれらのローカル接続と、画像の階層的に組織化された変換とに基づく最初の計算モデルは、福島邦彦のネオコグニトロン(福島、1980)に見られる。彼が認識していたように、同じパラメータを持つニューロンを別の場所にある前の層のパッチに適用した時、平行移動不変な形が得られる。その後、LeCunがこのアイディアを追求し、誤差勾配を用いてそのようなネットワークを訓練し、いくつかの視覚の課題について最先端の能力を得、それを維持した(LeCun et al., 1989; LeCun et al., 1998b)。視覚系の生理学の現代の理解は、コンボリューショナル・ネットワークで見られる処理スタイルとつじつまが合っており(Serre et al., 2007)、少なくとも物体の迅速な、つまり注意やトップダウン・フィードバック接続の恩恵を受けない、認識についてそうである。今日まで、コンボリューショナル・ニューラル・ネットワークに基づいた視覚システムは、最良の性能システムの1つである。これは手書き文字認識について明らかに示された(LeCun et al., 1998b)。それは長年の間、機械学習ベンチマークとしての役割を担った*1


ディープ・アーキテクチャを訓練するという我々の議論に関係して、コンボリューショナル・ネットワークの例(LeCun et al., 1989; LeCun et al., 1998b; Simard & Platt, 2003; Ranzato et al., 2007)は、通常、5、6、7層から成るので興味深い。完全に接続されたニューラル・ネットワークから成る層が多くある場合、ランダムに初期化されていると、正しく最適化することがほとんど不可能だからである。その視覚課題における良い汎化能力を説明するような何が、そのアーキテクチャにおいて特別なのだろうか?


LeCunのコンボリューショナル・ニューラル・ネットワークは、コンボリューショナル層とサブサンプリング層の2タイプの層から成る。個々の層は地形構造を持つ。つまり、個々のニューロンは、受容野(ニューロンの応答に影響を与える、入力画像の領域)とともに、入力画像の位置に対応する固定の2次元の位置と関係する。個々の層の個々の位置で、多くのさまざまなニューロンが存在し、各々がその重みの集合を持ち、下の層の長方形の区画内のニューロンと関係している。重みの同じ集合が、さまざまな位置のニューロンと関係するが、それらは異なる入力長方形区画を持つ。


1つの未検査の仮定は、これらのニューロンの小さなファン・イン(1ニューロンあたりの少ない入力)が、勾配を役立たずにするほど拡散することなく、多くの層を通して伝播することを可能にしている、というものである。これは、多くの道を通って伝播する勾配は徐々に拡散し過ぎるようになる、つまり、出力誤差についての称賛や避難が過度に広く薄く分散される、という考えと矛盾しない。別の仮説は(これは最初の仮説と必ずしも両立しないわけではない)、階層的ローカル接続構造は、視覚課題に対して特に適切な、非常に強い仮説であり、また、勾配ベース最適化がうまく動作するのに好都合な領域内のネットワーク全体のパラメータを(重みゼロに対応する全ての非接続とともに)設定する、というものである。事実、最初の諸層での重みをランダムにしても、コンボリューショナル・ニューラル・ネットワークはうまく動作する(Ranzato, Huang, Boureau, & LeCun, 2007)。つまり、訓練された、完全に接続されたニューラル・ネットワークよりも良いが、完全に最適化されたコンボリューショナル・ニューラル・ネットワークより悪い性能を持つ。

*1:おそらく長年すぎるのではないか? この分野が、Larochelle, Erhan, Courville, Bergstra, and Bengio (2007)で紹介したような、より野心的なベンチマークに移行しつつあるのはよいことだ。