最小二乗法の復習(2)
さて、ここからが本番です。
xからyを推定する式とyからxを推定する式は同じか?
との値が求まったところで「これでとの関係式が求まった。」と数日前の私ならば思っていました。あなたは思っていませんか? もし求められた式
- ・・・・(11)
ただし
-
- ・・・・(9)
- ・・・・(10)
が、との間の関係を表す式であるならば、の値からを推定するのにも用いることが出来るはずです。つまり(11)式を変形して
- ・・・・(12)
として、の値を代入すればの値の推定値が求められるはずです。私はつい数日前までそう思っていました。ところが最小二乗法で求めた式(11)(9)(10)は「の値からの値を推定する(最良の)式」ではあるものの、けっして「の値からの値を推定する(最良の)式」ではありません。
その証拠をお見せしましょう。の値からの値を推定する式を作るために式(11)(9)(10)でとを入れ替えてみましょう。すると以下のようになります。
- ・・・・(13)
ただし
-
- ・・・・(14)
- ・・・・(15)
もし、式(13)が式(12)に等しいのであるならば
- ・・・・(16)
になるはずです。しかし、式(16)と式(9)から
- ・・・・(17)
となり、式(14)とは一致しません。
もうひとつ証拠として、具体的なデータを示してみましょう。表1に示す5つのデータで最小二乗法を適用してみます。
まず、データを散布図に示すと以下のようになります。
ここに最小二乗法で直線を引くと以下のようになります。
このグラフの軸と軸を入れ替えると以下のようになります。
しかし、とを入れ替えたデータ
から最小二乗法で計算して直線を引くと以下の赤線のようになり、一致しません。
つまり、「の値からの値を推定する式」と「の値からの値を推定する式」は別物なのです。
学校では、
- グラフ1のような散布図に人間がエイッと近似直線を引くのを、もっと科学的にしたものが最小二乗法で求めた直線、
と習ったような気がしますが、それならばとを入れ替えても同じ直線になるはずです。ところが本当はそうではない、ということを最近知って、私は驚いたわけです。
そして、人間が直感で引く近似直線に近いのはどうも、主成分分析の第1主成分らしいです。
ということで、次は主成分分析の勉強をします。