[데이터 분석] 상관분석(Correlation)과 교차 상관분석(Cross Correlation)
[데이터 분석] 상관분석(Correlation)과 교차 상관분석(Cross Correlation)
상관분석의 목적은 변수 간의 상관선을 파악하고, 더 나아가서는 회귀분석을 위한 변수 선택 과정이다.
입력 변수 : 출력 변수 = 독립변수 : 종속변수 = 설명 변수 : 반응변수
입력변수가 서로 독립적일 경우 독립 변수라고 할 수 있다.
하지만 일상생활이나 공장의 데이터는 입력 변수 간에도 상관성을 가지고 있다.
이런경우에 PCA(Principal Component Analysis) : 주성분 분석을 활용하기도 한다.
상관 분석 결과는 -1에서 1사이의 값을 갖는다.
X와 Y의 상관 분석 결과 값이 1에 가까울 수록 X가 증가 할 때, Y도 증가하는 경향이 강하다는 뜻이고,
-1에 가까울수록 반대의 경향성을 나타낸다.
데이터가 시시각각 바뀌는 경우, 또는 X, Y사이에 시간차가 있는 경우는 일반적인 상관분석이 무용지물이다.
그런 경우 사용하는 것이 교차 상관분석이다.
아래의 표에서 SinX와 CosX를 보면 두 데이터의 상관성이 0.019로 매우 낮은 상관성을 가진다고 한다.
변수의 특성을 모르고 데이터를 분석하는 상황에서 이 값만 본다면 두 변수는 상관성이 없는 데이터라고 판단하기 쉽다.
하지만 변수의 특성을 안다면, 두 변수는 시간차만 있을 뿐 상관성이 매우 높을 것이라는 것을 짐작 할 수 있다.
그렇다면, 교차 상관분석을 한 후의 결과는 어떨까?
SinX에 대한 다른 데이터를 교차 상관분석 한 결과 상관성이 1로 나오는 것을 알 수 있다.
여기서는 매우 단순한 예로 삼각함수로 예를 들었지만 타임 딜레이가 있는 데이터 셋의 경우 교차 상관분석도 필요 할 수 있다는 것을 명심하자.