다변량 분석 - 주성분 분석과 고유 벡터의 관계
주성분 분석과 고유 벡터와 고유값이 어떤 관련이 있는지 정리해본다.
주성분 분석
- 고차원의 데이터를 저차원으로 줄이는 것이다.
- 공통된 상관관계가 높은 변수들을 줄여서 주성분을 찾는 것이 목적이다.
- 공분산
- 두 변수가 있다고 가정했을 때 두 변수가 변하는 공통 방향을 뜻한다.
- x가 증가하는데 y도 증가한다면 두 변수는 양의 상관관계를 가지며 좌표평면에서는 1사분면에 위치할 것이다.
- 상관계수
- 공분산은 방향은 알 수 있으나 점들이 모여있는 정도는 알 수 없다.
- 예를 들어 데이터의 단위가 100의 자리에서 10의 자리로 달라지면 공분산의 단위도 100에서 10으로 바뀐다. 하지만 상관계수는 표준화해서 구하므로 단위가 달라지지 않는다. 따라서 점들이 모여있는 정도까지 알 수 있다.
- 참고 영상: https://www.youtube.com/watch?v=yoqIj8Jvj90
- 고유값과 고유벡터
- 어떤 벡터 X에 행렬 A를 곱하니 벡터의 방향은 그대로이고 벡터의 길이만 달라졌다면, AX=λX로 표현할 수 있다.
- 여기서 X가 고유 벡터, 해당 벡터가 있는 방향에서 가장 기본이 되는 행렬이다.
- 여기서 λ는 고유값, 고유벡터에 곱해서 해당 벡터의 길이를 늘리거나 줄이는 값이다.
- 참고 영상: https://youtu.be/PFDu9oVAE-g?si=_R9PL3G4O8ahTp5p
- 고유 벡터를 구하면 그것으로 주성분을 구할 수 있다. 고유 벡터의 방향이 주성분 축의 방향을 결정한다.
- 예를 들어 다음 그림처럼 변수가 2개라면 2개의 주성분을 구할 수 있다.
- 두 주성분은 직교한다.
- 참고 영상: https://youtu.be/9kC7ABp4qPs?si=rL5IHB4WbBFWgAKu
댓글남기기