[데이터 분석] 상관분석(Correlation)과 교차 상관분석(Cross Correlation)



상관분석의 목적은 변수 간의 상관선을 파악하고, 더 나아가서는 회귀분석을 위한 변수 선택 과정이다.


입력 변수 : 출력 변수 = 독립변수 : 종속변수 = 설명 변수 : 반응변수


입력변수가 서로 독립적일 경우 독립 변수라고 할 수 있다. 

하지만 일상생활이나 공장의 데이터는 입력 변수 간에도 상관성을 가지고 있다.


이런경우에 PCA(Principal Component Analysis) : 주성분 분석을 활용하기도 한다.


상관 분석 결과는 -1에서 1사이의 값을 갖는다.

X와 Y의 상관 분석 결과 값이 1에 가까울 수록 X가 증가 할 때, Y도 증가하는 경향이 강하다는 뜻이고,

-1에 가까울수록 반대의 경향성을 나타낸다.


데이터가 시시각각 바뀌는 경우, 또는 X, Y사이에 시간차가 있는 경우는 일반적인 상관분석이 무용지물이다.


그런 경우 사용하는 것이 교차 상관분석이다.


아래의 표에서 SinX와 CosX를 보면 두 데이터의 상관성이 0.019로 매우 낮은 상관성을 가진다고 한다.

변수의 특성을 모르고 데이터를 분석하는 상황에서 이 값만 본다면 두 변수는 상관성이 없는 데이터라고 판단하기 쉽다.

하지만 변수의 특성을 안다면, 두 변수는 시간차만 있을 뿐 상관성이 매우 높을 것이라는 것을 짐작 할 수 있다.



그렇다면, 교차 상관분석을 한 후의 결과는 어떨까?

SinX에 대한 다른 데이터를 교차 상관분석 한 결과 상관성이 1로 나오는 것을 알 수 있다.


여기서는 매우 단순한 예로 삼각함수로 예를 들었지만 타임 딜레이가 있는 데이터 셋의 경우 교차 상관분석도 필요 할 수 있다는 것을 명심하자.



관측자 편향이란?



공항 이용자 대상으로 설문 조사를 했다고 가정하자.


당신이 항공기를 이용할 때 자리는 얼마나 차있나요? 매우 적음 1점 ~ 만석 5점으로 설문 조사를 했다.


설문 조사 결과는 4점이 나왔다. 하지만 탑승 승객을 항공기 수로 나눈 값(평균 항공기 이용자 수)는 3점 이었다.


왜 그럴까?


자리가 만석이었던 날 탔던 승객 수가 자리가 많이 비어있는 날 탑승했던 승객보다 훨씬 많기 때문이다.


만석을 경험한 승객 수는 100명(좌석수 100개라고 가정), 공석이 많은 비행기를 탔던 승객은 20명이라고 하자.

적당히 사람이 탄 경우도 물론있다.


설문 조사는 무작위로 실시 되었을 것이므로, 만석을 경험한 승객이 설문조사에 더 많이 응했을 것이다.


즉, 관측된 결과는 실제 분포와 다를 수 있다.


문득 생각난 또 다른 예로, 문래동에 A, B 중학교가 있다.


학생들이 평가한 A학교의 급식 점수는 10점만점에 5점. 엄청 맛이 없나보다.


B학교는 9점. 진짜 맛있나 보다. 근데 통계청에서 조사한 문래동 중학교의 급식 맛 점수는 7.7점이 나왔다.


두 학교의 평균은 7점인데 왜 7.7점이 나왔을까? 정답은, B 학교 학생수가 훨씬 많아서이다.



+ Recent posts