最小二乗法の復習(3)
次は主成分分析を勉強します、と前回、言っておきながら、まだ、最小二乗法のことを考えています。
では、どんな時に「の値からの値を推定する(最良の)式」は「の値からの値を推定する(最良の)式」と一致するのでしょう?
直感的に考えて、データが一直線に並んだ時であることが分かります。確かに全てのデータが一直線に並んでいれば、「の値からの値を推定する(最良の)式」と「の値からの値を推定する(最良の)式」は同じになるのは簡単に分かります。
では、それ以外の場合で「の値からの値を推定する(最良の)式」と「の値からの値を推定する(最良の)式」が同じになる場合があるでしょうか? それを確かめてみます。そのためには最小二乗法の復習(2)の議論から式(14)
- ・・・・(14)
と(17)
- ・・・・(17)
が等しくなる必要があることが分かります。よって
であることに注意すれば
- ・・・・(18)
ここで、式(18)の左辺が相関係数であることに気づけば、相関係数が1またはである、ということになり、これはデータが一直線に並んだ場合であることが分かります。つまり、やはりデータが一直線に並ばないと「の値からの値を推定する(最良の)式」と「の値からの値を推定する(最良の)式」は同じにならない、ということです。
さて、相関係数がならばなぜ全データが一直線に並んでいると言えるのか? そこも確かめておきましょう。最小二乗法の復習(1)の式(6)
- ・・・・(6)
から
ここで、を要素とする次元のベクトルと、を要素とする次元のベクトルを考えます。すると、上の式は
- ・・・・(19)
と書けます。ただし、はとの内積を表します。
また、なので
と書けます。ただしはの大きさです。よって
- ・・・・(20)
同様に
- ・・・・(21)
式(19)(20)(21)を式(18)に代入すると
よって
- ・・・・(22)
ところで
(ただしはとが作る角)と書けるので式(22)は
よって
- または
つまり、ベクトルとベクトルは同じ方向または正反対の方向を指していることになります。いずれにせよスカラの定数を用いて
と書くことが出来ることになります。この式をベクトルの各成分で書き表すと
となります。これを変形すると
となるので、全てのデータが一直線に並ぶことが分かります。