主成分分析(1)
主成分分析について考察していくのに、まずは分かりやすさを考慮して2次元のデータから考察していきます。しかし、考え方はもっと高次元にも容易に拡張できます。
の2つの要素からなる2次元のデータを考えます。それが多数存在していて、それを軸軸でグラフ化してみると図1のようになったとします。
このグラフを見ると明らかにとの間には関係があるのが分かります。 の値が大きくなればの値も(どれだけ大きくなるかにはばらつきがあるものの)大きくなる可能性が高いです。逆にの値が小さくなればの値も小さくなる可能性が高いです。つまりとは独立ではありません。主成分分析の目的は、とを組み合わせることで互いに独立な変数を見つけることです。こう言うと難しいことのように思えますが、要は図1のグラフをうまく回転して、図2のようにすることです。
図2でのとの値の間には関係がなさそうです。これが主成分分析で行いたいことです。つまり、元もと観測したデータは図1におけるとでしたが、これはある独立な2つの変数(原因)が組合さったものとして現象に表れたと考えるのです。組合さったがために、とには関係が現れたと考えるのです。そして、その原因を表す2つの変数は互いに独立している(無関係である)、と考えるわけです。この原因となる変数を推定するのが主成分分析です。
図2での軸と軸を元の図1で考えると、図3のようになります。
この図での赤色の座標軸で図った座標から青色の座標軸で図った座標に変換する式を求めることが主成分分析の目的の1つです。さらに、変換後の、ということは図2の状態での、側のばらつき(標準偏差)と側のばらつき(標準偏差)を求めることも主成分分析の目的の1つです。