神経回路網の自己組織と神経場のパターン力学　甘利俊一著（６）

2.2 学習情報源と平均学習方程式

入力信号 $\under{x}=(x_1,x_2,\cdots,x_n)$ は学習期間中に次から次へと与えられるから、時間 $t$ の関数

$\under{x}=\under{x}(t)$

と考えられる（教師信号があれば、これも $y(t)$ で与えられる）。このとき、学習信号 $r$ も $t$ に依存し、シナプス荷重 $\under{s}=(s_1,s_2,\cdots,s_n)$ が時間と共にどう変化していくかは(6)を解いて求まる。神経細胞は、外界の情報構造を示す入力信号の時系列 $\under{x}(t)$ 、 $y(t)$ を受け取って、これに基づいてシナプス荷重を変え、自己を外界に適応させていく。入力信号を発生する外界の情報源 $I$ は多数の信号を含み、信号 $\under{x}$ を確率（密度） $p(\under{x})$ で発生するものとしよう（図３）。

図３　学習情報源

よりくわしくいうと、情報源は一つの信号 $\under{x}$ を確率 $p(\under{x})$ で選んで、一定間隔 $\Delta{T}$ の間これを神経細胞に入力し、次に前とは独立にまた一つ信号 $\under{x}'$ を選んで神経細胞に入力し、この過程を繰り返すものとする（教師信号がある場合は、対応する $y$ も同時に発生する）。すなわち、学習の情報源は確率的であり、外界の情報構造は $\under{x}$ の発生する確率分布 $p(\under{x})$ （教師信号のある場合は $\under{x}$ と $y$ との同時確率分布 $p(\under{x},y)$ ）の形で与えられるものとする。情報源 $I$ には、外界にどのような種類の信号 $\under{x}$ が多く含まれているかという情報（教師信号のある場合は信号 $\under{x}$ に対し教師信号 $y$ はどういう指示をするかという情報）が含まれている。このとき、学習情報源の発生する信号の時系列 $\under{x}(t)$ は、長い時間 $0{\le}t{\le}T$ で観察すれば、各信号 $\under{x}$ が確率 $p(\under{x})$ に近い頻度で含まれている筈である（難しくいうと、情報源のエルゴード性ということになる）。

神経細胞の学習方程式(6)の解 $\under{s}(t)$ は入力時系列 $\under{x}(t)$ に依存して定まる。しかし、 $\under{x}(t)$ が情報源 $I$ の確率構造を反映していること（すなわち $\under{x}(t)$ の中で各信号の頻度が $p(\under{x})$ に近いこと）を考えてみると、一種の大数の法則が働いて、解 $\under{s}(t)$ は情報源の確率構造 $p(\under{x})$ だけでほぼ定まってしまうことが十分に予想できる（エルゴード性）。

そこで、方程式(6)またはベクトルで書き直した

$\tau\under{\dot{s}}=-\under{s}+cr\under{x}$ ・・・・(7)

の右辺第２項を、情報源の信号 $\under{x}$ について平均した方程式

[tex:\tau\under{\dot{s}}=-\under{s}+c\left]・・・・ (8)

を考えてみよう。ここに、 $\left<\;\right>$ は $x$ についての平均であり、学習信号 $r$ は一般に $\under{x}$ を含むから

[tex:\left=\Bigint{p}(\under{x})r(\under{s},\under{x})\under{x}d\under{x}]

である（ $y$ を含むときは $(\under{x},y)$ についての平均）。方程式(8)は平均の結果もはや $x$ を含まず、 $\under{s}$ だけの方程式になる。これを平均学習方程式と呼ぶが、この方程式の解 $\under{s}(t)$ は、ほとんどすべての場合に、実際の学習方程式(7)の解の良い近似を与えることが数学的に証明できる。そこで(8)を神経学習の基本方程式と考えよう。情報源の確率構造 $p(\under{x})$ は、平均 $\left<\;\right>$ をとるときに関与し、平均学習方程式の解 $\under{s}$ は $\left<\;\right>$ を通じ情報源の構造を反映する。

「神経回路網の自己組織と神経場のパターン力学――甘利俊一著――生物物理　Vol. 21 No.4 (1981)」より

さて方程式(6)

$\tau\dot{s}_i=-s_i+crx_i$ ・・・・(6)

をベクトルを使って書き直して

$\tau\under{\dot{s}}=-\under{s}+cr\under{x}$ ・・・・(7)

とするのは問題ありませんが、それを平均した式

[tex:\tau\under{\dot{s}}=-\under{s}+c\left]・・・・ (8)

の解は本当に「ほとんどすべての場合に、実際の学習方程式(7)の解の良い近似を与えることが数学的に証明できる」のでしょうか？　まず留意しなければならないことは式(7)の右辺の $\under{x}$ （より正確には $\under{x}(t)$ ）は確率的に変動する関数であるということです。ということは、これがうわさに聞いていた確率微分方程式ですか。私はさっそくWikipediaの「確率微分方程式」の項目を読んでみましたが、さっぱり理解出来ません。まず、簡単な問題から考察してみようと思います。