[엑셀 데이터 분석] 상관분석(Correlation)


엑셀의 데이터 분석기능 중에서 상관분석을 사용해보자.


아래는 공장 데이터이다.

컬럼의 상부 온도 하부 레벨과 온도 등등이 있다.

이 데이터를 선택한 데 특별한 이유는 없다.



엑셀의 데이터 - 데이터 분석을 누르면, 아래와 같은 창이 뜬다. 

그 중에서 상관분석을 선택한다.



그리고 입력 범위를 다음과 같이 4열을 선택하고 첫째행을 포함시켜 이름표로 사용한다.

출력 결과는 출력범위를 선택해도 좋고, 새로운 워크시트에 해도 된다.




그러면 상관성 분석 결과가 테이블로 나타난다. BTM Temperature와 Duct Pressure간의 상관성만 유의미해 보인다.




[엑셀 함수] NORMINV와 RAND함수로 정규분포 만들기



데이터 분석을 위해 정규분포를 임의로 만들어야 한다면


엑셀의 NORMINV와 RAND 함수를 사용해 보자.


NORMINV 설명 :


NORMINV 함수 구문에는 다음과 같은 인수가 사용됩니다.

  • probability     필수 요소입니다. 정규 분포를 따르는 확률입니다.

  • mean     필수 요소입니다. 분포의 산술 평균입니다.

  • standard_dev     필수 요소입니다. 분포의 표준 편차입니다


RAND 함수는 RAND()와 같이 사용하여 0~1사이의 난수를 발생시키는 함수이다.

아래의 =NORMIV(RAND(),1,1) 은 임의의 확률로 평균값 1을 가지고 표준편차 1을 가지는 함수를 만드는 식이다.



히스토그램으로 나타내면 다음과 같다.


만약에 일정한 군집을 이루는 데이터 셋을 만들고 싶다면,

X, Y를 위의 함수처럼 만들어주면 된다.




도움이 되셨으면 공감 한번  눌러주세요^^

관측자 편향이란?



공항 이용자 대상으로 설문 조사를 했다고 가정하자.


당신이 항공기를 이용할 때 자리는 얼마나 차있나요? 매우 적음 1점 ~ 만석 5점으로 설문 조사를 했다.


설문 조사 결과는 4점이 나왔다. 하지만 탑승 승객을 항공기 수로 나눈 값(평균 항공기 이용자 수)는 3점 이었다.


왜 그럴까?


자리가 만석이었던 날 탔던 승객 수가 자리가 많이 비어있는 날 탑승했던 승객보다 훨씬 많기 때문이다.


만석을 경험한 승객 수는 100명(좌석수 100개라고 가정), 공석이 많은 비행기를 탔던 승객은 20명이라고 하자.

적당히 사람이 탄 경우도 물론있다.


설문 조사는 무작위로 실시 되었을 것이므로, 만석을 경험한 승객이 설문조사에 더 많이 응했을 것이다.


즉, 관측된 결과는 실제 분포와 다를 수 있다.


문득 생각난 또 다른 예로, 문래동에 A, B 중학교가 있다.


학생들이 평가한 A학교의 급식 점수는 10점만점에 5점. 엄청 맛이 없나보다.


B학교는 9점. 진짜 맛있나 보다. 근데 통계청에서 조사한 문래동 중학교의 급식 맛 점수는 7.7점이 나왔다.


두 학교의 평균은 7점인데 왜 7.7점이 나왔을까? 정답은, B 학교 학생수가 훨씬 많아서이다.



+ Recent posts