自然画像統計と効率的符号化:オルスホーゼン、フィールド著(1)

自然画像統計と効率的符号化


B A Olshausen と D J Field
コーネル大学ユーリスホール心理学部。ニューヨーク、イタカ 14853
Email: bao1@cornell.edum, djf3@cornell.edu


情報理論と脳のワークショップ、1995年9月4,5日、スコットランドスターリング大学、の予稿集に掲載(「Network」のある号に収録される予定)。

摘要

自然画像は、純粋なランダム画像から区別するような独特な統計的規則性を含んでいる。これらの規則性が何であるかを理解することは自然画像をより効率的に符号化することを可能にする。この論文で我々は自然画像に含まれる構造の若干の形態を説明し、これらが視覚系の早期段階におけるニューロンの応答の性質にどのように関係しているかを示す。多くの重要な構造の形態が、それを特徴付けるのに高次の(つまり、線形、ペアワイズ以上の)統計を必要とし、そのことが線形のヘブ学習や主成分分析に基づいたモデルを、自然画像の効率的符号化を見つけることについて不適切なものにしている。我々は、自然の光景の効率的な符号化のための良い方針は、表現のスパース性を最大にすることであることを提案し、自然の光景のスパースなコードを学習したネットワークが、霊長類の有線皮質の受容野に似た、局所化された、方向性のある、周波数選択性のある、受容野を発達させるのに成功することを我々は示す。

1.導入

脳は網膜上の画像をどのようにして、環境内に存在する明確な物体、形、動き、などを表す、より効率的で役に立つ表現に変換するのだろうか? 神経生理学のデータは、物体の形のより複雑な局面は、有線皮質(V1)から始まり主にV2, V4を通って下部側頭葉に入る視覚野の階層の中で抽出されると示唆している。これらの細胞が実際に計算しているもののより複雑なあるいは詳細な特徴づけは、捉えにくいと判明していた。我々と他の人々*1,*2,*3が近年採用した方法は、問題を反対側から見ることであり、我々が通常見る画像の構造を研究することであった。自然の光景は可能な全ての画像の空間の極めて小さい断片から構成され、大脳皮質がこれらの画像を効率的に表現するための戦略を進化させ発達させたことは理にかなっているとみえる。よって、自然画像の構造を特徴づけ、この構造に基づいて効率的な符号化戦略を定式化することは、大脳皮質で進行中の処理のタイプについての洞察に役立つだろう。この論文で我々はこの方法を、皮質の処理の第一段階、V1領域のいわゆる「単純細胞」の応答特性を理解するのに応用する。
単純細胞の空間的受容野は生理学的に合理的によく記述されており、局所性、方向選択性、周波数選択性、があるとして特徴付けることが出来る。個々の細胞は、特定の方向に引き伸ばされた、興奮性と抑制性の部分野に組織された制限された近接する空間の領域内部で視覚刺激に応答し、空間周波数応答は一般的に1〜2オクターブの範囲の帯域幅を持つ周波数選択特性である*4,*5,*6,*7。(これらの応答は時間応答特性も同様に持つ*8が、さしあたり、我々は受容野の空間的局面のみを扱う。)以前に、主成分分析を実行する、線形なヘブの学習則を用いてこれらの受容野の特性を説明する、いくつかの試みがなされた*9,*10,*11。しかしながら図1に示すように、この方法は大脳皮質の単純細胞に似た受容野の一式を生成するのに失敗している。

図1.サンガーのルール*12を用いて自然の光景から抽出した8×8の画像区間について計算した主成分分析。これらの関数は局所化されておらず、大多数はどのような既知の皮質受容野にまったく似ていない。最初の数個の主成分は、単にそれらが(最低の空間周波数は自然の光景内のばらつきの最も大きな部分を説明するので*13.)少数の低周波要素から成るという事実のおかげで「方向付けられた」ようにみえ、これらの関数だけに基づく再構成は単にぼやけた画像しか生み出さない。

線形ヘブ学習則の主な制約は、それが画像ピクセルの間の線形でペアワイズな相関からしか学習出来ないことである。その結果、これらの方法は自然画像で起こる局所的で、方向付けされ、周波数選択性のある、構造から学習することが出来ない。そしてこれら全ては、それらを特徴付けるために高次の統計を必要とする。自然の光景の効率的な符号化のための適切な目標は表現のスパース性を最大にすることである、と我々は主張し、自然の光景のスパース・コードを学習したネットワークが、望ましい特性を持つ受容野を生成することに成功したことを示していく。

*1:[7] Field DJ (1987) Relations between the statistics of natural images and the response properties of cortical cells, J Opt Soc Am, A, 4: 2379-2394.

*2:[1] Atick JJ (1992) Could information theory provide an ecological theory of sensory processing? Network, 3:213-251.

*3:[17] Ruderman DL (1994) The statistics of natural images. Network, 5:517-548.

*4:[12] Hubel DH, Wiesel TN (1968) Receptive fields and functional architecture of monkey striate cortex. The Journal of Physiology, 195: 215-244.

*5:[6] De Valois RL, Albrecht DG, Thorell LG (1982) Spatial frequency sellectivity of cells in macaque visual cortex. Vision Res, 22: 545-559.

*6:[13] Jones JP, Palmer LA (1987) An evaluation of the two-dimensional Gabor filter model of simple receptive fields in cat striate cortex. Journal of Neurophysiology, 58: 1233-1258.

*7:[16] Parker AJ, Hawken MJ (1988) Two-dimensional spatial structure of receptive fields in monkey striate cortex. Journal of the Optical Society of America A, 5; 598-605.

*8:[5] DeAngelis GC, Ohzawa I, Freeman RD (1995) Receptive field dynamics in the central visual pathways, Trends in Neurosciences, 18: 451-458.

*9:[14] Linsker R (1988) Self-organization in a perceptual network. Computer, pp. 105-117.

*10:[18] Sanger TD (1989) An optimality principle for unsupervised learning. In: Advances in Neural Information Processing Systems I, D. Tourezky, ed., pp. 11-19.

*11:[10] Hancock PJB, Baddeley RJ, Smith LS (1992) The principle components of natural images. Network, 3: 61-72.

*12:[18] Sanger TD (1989) An optimality principle for unsupervised learning. In: Advances in Neural Information Processing Systems I, D. Tourezky, ed., pp. 11-19.

*13:[7] Field DJ (1987) Relations between the statistics of natural images and the response properties of cortical cells, J Opt Soc Am, A, 4: 2379-2394.