주성분 분석과 고유 벡터와 고유값이 어떤 관련이 있는지 정리해본다.

주성분 분석

  • 고차원의 데이터를 저차원으로 줄이는 것이다.
  • 공통된 상관관계가 높은 변수들을 줄여서 주성분을 찾는 것이 목적이다.

  1. 공분산
    • 두 변수가 있다고 가정했을 때 두 변수가 변하는 공통 방향을 뜻한다.
    • x가 증가하는데 y도 증가한다면 두 변수는 양의 상관관계를 가지며 좌표평면에서는 1사분면에 위치할 것이다.
  2. 상관계수
    • 공분산은 방향은 알 수 있으나 점들이 모여있는 정도는 알 수 없다.
    • 예를 들어 데이터의 단위가 100의 자리에서 10의 자리로 달라지면 공분산의 단위도 100에서 10으로 바뀐다. 하지만 상관계수는 표준화해서 구하므로 단위가 달라지지 않는다. 따라서 점들이 모여있는 정도까지 알 수 있다.
  • 참고 영상: https://www.youtube.com/watch?v=yoqIj8Jvj90
  1. 고유값과 고유벡터
    • 어떤 벡터 X에 행렬 A를 곱하니 벡터의 방향은 그대로이고 벡터의 길이만 달라졌다면, AX=λX로 표현할 수 있다.
  2. 여기서 X가 고유 벡터, 해당 벡터가 있는 방향에서 가장 기본이 되는 행렬이다.
  3. 여기서 λ는 고유값, 고유벡터에 곱해서 해당 벡터의 길이를 늘리거나 줄이는 값이다.
    • 참고 영상: https://youtu.be/PFDu9oVAE-g?si=_R9PL3G4O8ahTp5p
  4. 고유 벡터를 구하면 그것으로 주성분을 구할 수 있다. 고유 벡터의 방향이 주성분 축의 방향을 결정한다.
    • 예를 들어 다음 그림처럼 변수가 2개라면 2개의 주성분을 구할 수 있다.
    • 두 주성분은 직교한다. pc graph
    • 참고 영상: https://youtu.be/9kC7ABp4qPs?si=rL5IHB4WbBFWgAKu

댓글남기기