最小二乗法の復習（３） - 工場統計力学（建設中！）

次は主成分分析を勉強します、と前回、言っておきながら、まだ、最小二乗法のことを考えています。

では、どんな時に「 $x$ の値から $y$ の値を推定する（最良の）式」は「 $y$ の値から $x$ の値を推定する（最良の）式」と一致するのでしょう？
直感的に考えて、データが一直線に並んだ時であることが分かります。確かに全てのデータが一直線に並んでいれば、「 $x$ の値から $y$ の値を推定する（最良の）式」と「 $y$ の値から $x$ の値を推定する（最良の）式」は同じになるのは簡単に分かります。
では、それ以外の場合で「 $x$ の値から $y$ の値を推定する（最良の）式」と「 $y$ の値から $x$ の値を推定する（最良の）式」が同じになる場合があるでしょうか？　それを確かめてみます。そのためには最小二乗法の復習（２）の議論から式(14)

$A=\frac{\rm{Cov}(y,x)}{\sigma_y^2}$ ・・・・(14)

と(17)

$A=\frac{\sigma_x^2}{\rm{Cov}(x,y)}$ ・・・・(17)

が等しくなる必要があることが分かります。よって

$\frac{\rm{Cov}(y,x)}{\sigma_y^2}=\frac{\sigma_x^2}{\rm{Cov}(x,y)}$

$\rm{Cov}(y,x)=\rm{Cov}(x,y)$ であることに注意すれば

$\rm{Cov}(x,y)^2=\sigma_x^2\sigma_y^2$
$\rm{Cov}(x,y)=\pm\sigma_x\sigma_y$
$\frac{\rm{Cov}(x,y)}{\sigma_x\sigma_y}=\pm{1}$ ・・・・(18)

ここで、式(18)の左辺が相関係数であることに気づけば、相関係数が1または $-1$ である、ということになり、これはデータが一直線に並んだ場合であることが分かります。つまり、やはりデータが一直線に並ばないと「 $x$ の値から $y$ の値を推定する（最良の）式」と「 $y$ の値から $x$ の値を推定する（最良の）式」は同じにならない、ということです。