공항 이용자 대상으로 설문 조사를 했다고 가정하자.
당신이 항공기를 이용할 때 자리는 얼마나 차있나요? 매우 적음 1점 ~ 만석 5점으로 설문 조사를 했다.
설문 조사 결과는 4점이 나왔다. 하지만 탑승 승객을 항공기 수로 나눈 값(평균 항공기 이용자 수)는 3점 이었다.
왜 그럴까?
자리가 만석이었던 날 탔던 승객 수가 자리가 많이 비어있는 날 탑승했던 승객보다 훨씬 많기 때문이다.
만석을 경험한 승객 수는 100명(좌석수 100개라고 가정), 공석이 많은 비행기를 탔던 승객은 20명이라고 하자.
적당히 사람이 탄 경우도 물론있다.
설문 조사는 무작위로 실시 되었을 것이므로, 만석을 경험한 승객이 설문조사에 더 많이 응했을 것이다.
즉, 관측된 결과는 실제 분포와 다를 수 있다.
문득 생각난 또 다른 예로, 문래동에 A, B 중학교가 있다.
학생들이 평가한 A학교의 급식 점수는 10점만점에 5점. 엄청 맛이 없나보다.
B학교는 9점. 진짜 맛있나 보다. 근데 통계청에서 조사한 문래동 중학교의 급식 맛 점수는 7.7점이 나왔다.
두 학교의 평균은 7점인데 왜 7.7점이 나왔을까? 정답은, B 학교 학생수가 훨씬 많아서이다.
'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글
[실험계획법] 일원배치법 (0) | 2018.08.10 |
---|---|
[통계분석] 유의성 검정(2) - 유의확률 & 모평균 검정 (0) | 2017.09.18 |
[통계분석] 유의성 검정(1) - 대립가설과 귀무가설, 가설 검정 (0) | 2017.09.18 |
[6 시그마] 5. 개선단계 - SOP, 실험계획법(DOE), 실험설계, 일원배치법 (0) | 2017.05.28 |
[데이터 분석] 상관분석(Correlation)과 교차 상관분석(Cross Correlation) (0) | 2017.05.21 |