主成分分析(2)

xyが互いに独立になるというのは、どのようにして判断すればよいでしょうか? ここでは共分散というものを使います。xyの共分散\sigma_{xy}

  • \sigma_{xy}=\bar{(x-\bar{x})(y-\bar{y})}

で定義されます。ここで\bar{x}というのはxの平均値を意味します。もしxyが独立であれば、データ数が非常に多いとき

  • \bar{(x-\bar{x})(y-\bar{y})}=(\bar{x-\bar{x}})\cdot(\bar{y-\bar{y}})

が成り立ちます。すると

  • \bar{x-\bar{x}}=\bar{x}-\bar{x}=0
  • \bar{y-\bar{y}}=\bar{y}-\bar{y}=0

となるので、結局、

  • \sigma_{xy}=0

となります。では逆に\sigma_{xy}=0ならばxyは独立であると言えるでしょうか? 実はそうは言えないのです。そう言えないところが悩ましいところなのですが、今はとにかく\sigma_{xy}をゼロにすることを考えます。


どのようにして\sigma_{xy}をゼロにするのか。それを考えるには\sigma_{xy}だけでなく次のように定義される\sigma_{xx}\sigma_{yy}と一緒に考えるほうが分かりやすいです。

  • \sigma_{xx}=\bar{(x-\bar{x})^2}
  • \sigma_{yy}=\bar{(y-\bar{y})^2}

上の定義から分かるように\sigma_{xx}xの分散(=標準偏差の2乗)と同じであり、\sigma_{yy}yの分散と同じです。


さて(x,y)をまとめて2次元の縦ベクトルrで表しましょう。つまり

  • r=\left(\begin{array}x\\y\end{array}\right)

です。ここで行列S

  • S=\bar{(r-\bar{r})(r-\bar{r})^T}・・・・(1)

で定義します。これを成分で書くと

  • S=\bar{\left[\begin{array}x-\bar{x}\\y-\bar{y}\end{array}\right][x-\bar{x},y-\bar{y}]}=\bar{\left[\begin{array}(x-\bar{x})^2&(x-\bar{x})(y-\bar{y})\\(y-\bar{y})(x-\bar{x})&(y-\bar{y})^2\end{array}\right]}
    • =\left[\begin{array}\bar{(x-\bar{x})^2}&\bar{(x-\bar{x})(y-\bar{y})}\\\bar{(y-\bar{y})(x-\bar{x})}&\bar{(y-\bar{y})^2}\end{array}\right]=\left[\begin{array}\sigma_{xx}&\sigma_{xy}\\\sigma_{yx}&\sigma_{yy}\end{array}\right]

よって

  • S=\left[\begin{array}\sigma_{xx}&\sigma_{xy}\\\sigma_{yx}&\sigma_{yy}\end{array}\right]・・・・(2)

ここで

  • \sigma_{yx}=\bar{(y-\bar{y})(x-\bar{x})}

と置きましたが、これはもちろん\sigma_{xy}に等しいです。つまり

  • \sigma_{xy}=\sigma_{yx}

です。つまり、行列Sは対称行列です。そしてその要素はどれも実数ですから実対称行列です。ここで、「線形代数学の復習:実対称行列は対角化可能である(1)」〜「(5)」で証明した実対称行列は対角化可能であるという定理が活躍します。