最小二乗法の復習(2)

さて、ここからが本番です。

xからyを推定する式とyからxを推定する式は同じか?

abの値が求まったところで「これでxyの関係式が求まった。」と数日前の私ならば思っていました。あなたは思っていませんか? もし求められた式

  • y=ax+b・・・・(11)

ただし

    • a=\frac{\rm{Cov}(x,y)}{\sigma_x^2}・・・・(9)
    • b=\bar{y}-\frac{\rm{Cov}(x,y)}{\sigma_x^2}\bar{x}・・・・(10)

が、xyの間の関係を表す式であるならば、yの値からxを推定するのにも用いることが出来るはずです。つまり(11)式を変形して

  • x=\frac{1}{a}y-\frac{b}{a}・・・・(12)

として、yの値を代入すればxの値の推定値が求められるはずです。私はつい数日前までそう思っていました。ところが最小二乗法で求めた式(11)(9)(10)はxの値からyの値を推定する(最良の)式」ではあるものの、けっして「yの値からxの値を推定する(最良の)式」ではありません。


その証拠をお見せしましょう。yの値からxの値を推定する式を作るために式(11)(9)(10)でxyを入れ替えてみましょう。すると以下のようになります。

  • x=Ay+B・・・・(13)

ただし

    • A=\frac{\rm{Cov}(y,x)}{\sigma_y^2}・・・・(14)
    • B=\bar{x}-\frac{\rm{Cov}(y,x)}{\sigma_y^2}\bar{y}・・・・(15)

もし、式(13)が式(12)に等しいのであるならば

  • A=\frac{1}{a}・・・・(16)

になるはずです。しかし、式(16)と式(9)から

  • A=\frac{\sigma_x^2}{\rm{Cov}(x,y)}・・・・(17)

となり、式(14)とは一致しません。


もうひとつ証拠として、具体的なデータを示してみましょう。表1に示す5つのデータで最小二乗法を適用してみます。

  • 表1

まず、データを散布図に示すと以下のようになります。


ここに最小二乗法で直線を引くと以下のようになります。


このグラフのx軸とy軸を入れ替えると以下のようになります。


しかし、xyを入れ替えたデータ

から最小二乗法で計算して直線を引くと以下の赤線のようになり、一致しません。


つまり、「xの値からyの値を推定する式」と「yの値からxの値を推定する式」は別物なのです。


学校では、

  • グラフ1のような散布図に人間がエイッと近似直線を引くのを、もっと科学的にしたものが最小二乗法で求めた直線、

と習ったような気がしますが、それならばxyを入れ替えても同じ直線になるはずです。ところが本当はそうではない、ということを最近知って、私は驚いたわけです。


そして、人間が直感で引く近似直線に近いのはどうも、主成分分析の第1主成分らしいです。


ということで、次は主成分分析の勉強をします。