2014-09-18

図２

の学習能力について考察します。パーセプトロンの入力パターン） $\vec{x}=(x_1,x_2,...,x_n)$ の種類が全部で $m$ 個あるとします。そしてそれらを $\vec{x}(m)=(x_1(m),x_2(m),...,x_n(m))$ で表します。 $\vec{x}(k)$ の全体集合 $U_1=\{\vec{x}(1),\vec{x}(2),...,\vec{x}(m)\}$ を考えます。 $U_1$ の部分集合 $I(w)$ を考えます。ただし $w=1,2,...,q$ です。そして部分集合は互いに共通要素を持たないとします。このパーセプトロンの出力 $y_1$ がパターン群 $I(1)$ にのみ反応し、 $y_2$ がパターン群 $I(2)$ にのみ反応し、・・・・ $y_w$ がパターン群 $I(w)$ にのみ反応し、・・・・ $y_q$ がパターン群 $I(q)$ にのみ反応するように、パーセプトロンを学習させたいとします。この学習が可能かどうかを検討します。

$k$ 番目の入力パターン $\vec{x}(k)$ は真ん中の層によって $\vec{z}(k)$ に変換されるとします。するとこのパターンも $m$ 個あることになり、それぞれは $\vec{z}(1),\vec{z}(2),...,\vec{z}(m)$ と表すことにします。ただし、 $i\neq{j}$ で $\vec{z}(i)=\vec{z}(j)$ になる可能性もあります。 $\vec{z}(k)$ の全体集合 $U_2=\{\vec{z}(1),\vec{z}(2),...,\vec{z}(m)\}$ を考えます。 $I(w)$ に属する $\vec{x}(k)$ が変換された結果、生成される $\vec{z}(k)$ の集合を $J(w)$ とします。 $J(w)$ の補集合を $\bar{J(w)}$ で表します。さて $J(w)$ と $\bar{J(w)}$ が線形分離可能でなければ、ニューロン $n_{2w}$ は $J(w)$ を認識するように学習させることは出来ません。しかし、 $I(w)$ を真ん中の層が $J(w)$ に変換する際に、必ず $J(w)$ と $\bar{J(w)}$ が線形分離可能になるように変換することは出来ないでしょうか？　もしこれが出来ればこのパーセプトロンは $I(w)$ に属する $\vec{x}(k)$ について $y_w$ だけが１を出力し、他の $y$ は０を出力するように学習出来ることになります。しかしこれは容易なことではありません。というのは、 $I(w)$ にどの $\vec{x}(k)$ を含ませるかは任意ですので、そのあらゆる場合について $J(w)$ と $\bar{J(w)}$ が線形分離可能になるようにしなけばなりません。そんなことが可能でしょうか？

ここで注意しなければならないことは、 $\vec{x}$ の次元と $\vec{z}$ の次元が異なるということです。 $\vec{z}$ の次元をいくらでも大きくすることは可能です。つまり、真ん中の層のニューロンの数 $p$ を増やせばよいのです。ここで $p$ を入力パターンの数 $m$ と等しくとることにしましょう。そして $\vec{x}(k)$ は、 $z_k=1$ かつ、 $j{\neq}k$ である $j$ については $z_j=0$ であるような $\vec{z}(k)$ に変換されるとします。このような変換は、

の時
- $s_{1ki}=1$ ・・・・(5)
の時
- $s_{1ki}=-1$ ・・・・(6)
$h_k=\Bigsum_{i=1}^nx_i(k)-0.5$ ・・・・(7)

とすることで実現します。これを確かめてみましょう。式(5)(6)から

$\Bigsum_{i=1}^ns_{1ki}x_i(k)=\Bigsum_{i=1}^nx_i(k)$

なので

$\Bigsum_{i=1}^ns_{1ki}x_i(k)-h_k=\Bigsum_{i=1}^nx_i(k)-\Bigsum_{i=1}^nx_i(k)+0.5=0.5$

よって

$\Bigsum_{i=1}^ns_{1ki}x_i(k)-h_k=0.5$ ・・・・(8)

となるので、 $z_k=1$ となります。次に $j$ が $j{\neq}k$ であるとしてこのニューロン $n_{1k}$ にパターン $\vec{x}(j)$ を入力した時を考えます。 $\vec{x}(k)\neq\vec{x}(j)$ なので $x_i(k)\neq{x}_i(j)$ であるような $i$ が存在します。これは $x_i(k)=1$ かつ $x_i(j)=0$ の場合と $x_i(k)=0$ かつ $x_i(j)=1$ の場合があります。もし $x_i(k)=1$ かつ $x_i(j)=0$ であるとすると、

$s_{1ki}x_i(j)=0$

一方 $x_i(k)=1$ と式(5)から $s_{1ki}=1$ 。よって

$s_{1ki}x_i(k)=1$

よって

$s_{1ki}x_i(k)=s_{1ki}x_i(j)+1$ ・・・・(9)

が成り立ちます。次に $x_i(k)=0$ かつ $x_i(j)=1$ であるとすると、 $x_i(k)=0$ と式(6)から $s_{1ki}=-1$ 。よって

$s_{1ki}x_i(j)=-1$

一方、

$s_{1ki}x_i(k)=0$

よって、この場合も式(9)が成り立ちます。よって $\vec{x}(k)$ と $\vec{x}(j)$ の間で値の異なる成分の個数を $A$ とすると

$\Bigsum_{i=1}^ns_{1ki}x_i(k)=\Bigsum_{i=1}^ns_{1ki}x_i(j)+A$ ・・・・(10)

となります。式(10)と(8)から

$\Bigsum_{i=1}^ns_{1ki}x_i(j)+A-h_k=0.5$

よって

$\Bigsum_{i=1}^ns_{1ki}x_i(j)-h_k=0.5-A$ ・・・・(11)

$A$ は１以上なので、

$\Bigsum_{i=1}^ns_{1ki}x_i(j)-h_k<0$ ・・・・(12)

よって $z_k=0$ となります。つまり、ニューロン $n_{1k}$ は入力パターン $\vec{x}(k)$ のみに反応することが分かります。このことは真ん中の層の他のニューロンにも言えることなので、 $j{\neq}k$ であるニューロン $n_{1j}$ は $\vec{x}(j)$ にのみ反応し $\vec{x}(k)$ には反応しません。よって $z_j=0$ です。よって $\vec{x}(k)$ は真ん中の層によって、 $z_k=1$ かつ、 $j{\neq}k$ である $j$ については $z_j=0$ であるような $\vec{z}(k)$ に変換されることが分かります。

工場統計力学（建設中！）

ローゼンブラットのパーセプトロン（２）