主成分分析(1)

主成分分析について考察していくのに、まずは分かりやすさを考慮して2次元のデータから考察していきます。しかし、考え方はもっと高次元にも容易に拡張できます。

(x,y)の2つの要素からなる2次元のデータを考えます。それが多数存在していて、それをxy軸でグラフ化してみると図1のようになったとします。

  • 図1


このグラフを見ると明らかにxyの間には関係があるのが分かります。 xの値が大きくなればyの値も(どれだけ大きくなるかにはばらつきがあるものの)大きくなる可能性が高いです。逆にxの値が小さくなればyの値も小さくなる可能性が高いです。つまりxyは独立ではありません。主成分分析の目的は、xyを組み合わせることで互いに独立な変数を見つけることです。こう言うと難しいことのように思えますが、要は図1のグラフをうまく回転して、図2のようにすることです。

  • 図2


図2でのxyの値の間には関係がなさそうです。これが主成分分析で行いたいことです。つまり、元もと観測したデータは図1におけるxyでしたが、これはある独立な2つの変数(原因)が組合さったものとして現象に表れたと考えるのです。組合さったがために、xyには関係が現れたと考えるのです。そして、その原因を表す2つの変数は互いに独立している(無関係である)、と考えるわけです。この原因となる変数を推定するのが主成分分析です。


図2でのx軸とy軸を元の図1で考えると、図3のようになります。

  • 図3


この図での赤色の座標軸で図ったx,y座標から青色の座標軸で図ったx,y座標に変換する式を求めることが主成分分析の目的の1つです。さらに、変換後の、ということは図2の状態での、x側のばらつき(標準偏差)とy側のばらつき(標準偏差)を求めることも主成分分析の目的の1つです。