神経回路網の自己組織と神経場のパターン力学 甘利俊一著(6)

    • 2.2 学習情報源と平均学習方程式
      • 入力信号\under{x}=(x_1,x_2,\cdots,x_n)は学習期間中に次から次へと与えられるから、時間tの関数
        • \under{x}=\under{x}(t)
      • と考えられる(教師信号があれば、これもy(t)で与えられる)。このとき、学習信号rtに依存し、シナプス荷重\under{s}=(s_1,s_2,\cdots,s_n)が時間と共にどう変化していくかは(6)を解いて求まる。神経細胞は、外界の情報構造を示す入力信号の時系列\under{x}(t)y(t)を受け取って、これに基づいてシナプス荷重を変え、自己を外界に適応させていく。入力信号を発生する外界の情報源Iは多数の信号を含み、信号\under{x}を確率(密度)p(\under{x})で発生するものとしよう(図3)。
        • 図3 学習情報源
      • よりくわしくいうと、情報源は一つの信号\under{x}を確率p(\under{x})で選んで、一定間隔\Delta{T}の間これを神経細胞に入力し、次に前とは独立にまた一つ信号\under{x}'を選んで神経細胞に入力し、この過程を繰り返すものとする(教師信号がある場合は、対応するyも同時に発生する)。すなわち、学習の情報源は確率的であり、外界の情報構造は\under{x}の発生する確率分布p(\under{x})(教師信号のある場合は\under{x}yとの同時確率分布p(\under{x},y))の形で与えられるものとする。情報源Iには、外界にどのような種類の信号\under{x}が多く含まれているかという情報(教師信号のある場合は信号\under{x}に対し教師信号yはどういう指示をするかという情報)が含まれている。このとき、学習情報源の発生する信号の時系列\under{x}(t)は、長い時間0{\le}t{\le}Tで観察すれば、各信号\under{x}が確率p(\under{x})に近い頻度で含まれている筈である(難しくいうと、情報源のエルゴード性ということになる)。
      • 神経細胞の学習方程式(6)の解\under{s}(t)は入力時系列\under{x}(t)に依存して定まる。しかし、\under{x}(t)が情報源Iの確率構造を反映していること(すなわち\under{x}(t)の中で各信号の頻度がp(\under{x})に近いこと)を考えてみると、一種の大数の法則が働いて、解\under{s}(t)は情報源の確率構造p(\under{x})だけでほぼ定まってしまうことが十分に予想できる(エルゴード性)。
      • そこで、方程式(6)またはベクトルで書き直した
        • \tau\under{\dot{s}}=-\under{s}+cr\under{x}・・・・(7)
      • の右辺第2項を、情報源の信号\under{x}について平均した方程式
        • [tex:\tau\under{\dot{s}}=-\under{s}+c\left]・・・・ (8)
      • を考えてみよう。ここに、\left<\;\right>xについての平均であり、学習信号rは一般に\under{x}を含むから
        • [tex:\left=\Bigint{p}(\under{x})r(\under{s},\under{x})\under{x}d\under{x}]
      • である(yを含むときは(\under{x},y)についての平均)。方程式(8)は平均の結果もはやxを含まず、\under{s}だけの方程式になる。これを平均学習方程式と呼ぶが、この方程式の解\under{s}(t)は、ほとんどすべての場合に、実際の学習方程式(7)の解の良い近似を与えることが数学的に証明できる。そこで(8)を神経学習の基本方程式と考えよう。情報源の確率構造p(\under{x})は、平均 \left<\;\right>をとるときに関与し、平均学習方程式の解\under{s}\left<\;\right>を通じ情報源の構造を反映する。


神経回路網の自己組織と神経場のパターン力学――甘利俊一著――生物物理 Vol. 21 No.4 (1981)」より


さて方程式(6)

  • \tau\dot{s}_i=-s_i+crx_i・・・・(6)

をベクトルを使って書き直して

  • \tau\under{\dot{s}}=-\under{s}+cr\under{x}・・・・(7)

とするのは問題ありませんが、それを平均した式

  • [tex:\tau\under{\dot{s}}=-\under{s}+c\left]・・・・ (8)

の解は本当に「ほとんどすべての場合に、実際の学習方程式(7)の解の良い近似を与えることが数学的に証明できる」のでしょうか? まず留意しなければならないことは式(7)の右辺の\under{x}(より正確には\under{x}(t))は確率的に変動する関数であるということです。ということは、これがうわさに聞いていた確率微分方程式ですか。私はさっそくWikipediaの「確率微分方程式」の項目を読んでみましたが、さっぱり理解出来ません。まず、簡単な問題から考察してみようと思います。