[엑셀 데이터 분석] 이항분포(binomial distribution) BINOMDIST


어떤 실험의 결과가 (성공, 실패) 또는 (합격, 불합격)과 같이 두 가지 결과 중 하나로 나타나는 경우의 시행을 베르누이 시행(Bernoulli trial)이라고 하고 두 값 중 하나의 값을 취할 수 있는 확률 변수를 베르누이 확률변수라고 한다.


  • 베르누이 시행 :
  1. 각 시행의 결과는 성공(S) 또는 실패(F) 중의 하나로 나타난다.
  2. 매 시행에서의 성공확률을 p=P(S)로 나타낸다면 실패확률 q=1-p이다. 따라서 p+q=1이 된다.
  3. 각 시행은 독립이다.  즉, 한 시행에서의 성공 여부가 다음 시행의 성공확률에 영향을 미치지 않는다.

성공확률 p인 베르누이 시행에서 확률변수 X를 성공이면 1, 실패면 0으로 정의하면 확률변수 X의 평균과 분산은 다음과 같다.


동일한 성공확률 p를 가진 베르누이 시행을 독립적으로 n회 반복하여 시행할 때 성공의 횟수를 X라 하면 확률변수 X는 이항분포를 따르고 X~B(n, p)로 표현한다.

이항확률변수로 표현할 수 있는 예는 다음과 같다.

1) 앞면이 나타날 확률이 p인 동전을 n회 던졌을 때 나타나는 앞면의 횟수

2) 공정한 주사위를 n회 던졌을 때 1의 눈이 나타나는 횟수

3) 불량률 p인 제품 더미 중에서 n개를 추출하였을 때 그 중에 포함되는 불량품의 개수


위의 예시와 같다. 동일한 확률 p를 가정한다는 것을 확인해야 한다.

그리고 위의 내용은 고등학교 수학의 순열과 조합에 자주 나오는 단골 내용이다.

 

엑셀에서 이항분포의 확률계산은 BINOMDIST 함수를 이용한다.


  • BINOMDIST(number_s, trials, probability_s, cumulative) :

    - number_s : 성공 횟수

    - trials : 독립 시행횟수

    - probability_s : 각 시행에서 성공확률

    - cumulative : 함수형태를 결정하는 논리 값 1이면 누적확률질량함수 값을 계산하고, 0 이면 확률질량함수 값을 계산한다.


예제 1


4개의 동전을 던질 때 나타나는 앞면의 수를 확률변수 X라 하면 X~B(4, 0.5)가 되고 나타난 앞면의 수가 x일 때의 확률은 다음과 같다.

엑셀 수식은 "=BINOMDIST(x, 4, 0.5, 0)" 를 입력하면 된다.



예제 2


어느 생산 공정의 불량률이 5%일 때, 이 공정에서 임의로 10개를 추출하였을 때 이 중에서 불량품이 3개 이상 포함될 확률은?

전체 확률 1에서 불량품이 2개 이하일 확률을 빼면 된다. 2개 이하일 확률은 누적확률질량함수(논리 값 1)을 사용해서 구할 수 있다.

= 1 - BINOMDIST(2, 10, 0.5, 1)


참조: 엑셀데이터분석, 한국방송통신대학교 출판문화원, 조신섭 외 3명 공저

[엑셀 데이터 분석] 포아송분포 POISSON


포아송분포는 사무실에 한 시간 동안 전화가 걸려 오는 횟수, 고속도로 상에서 하루 동안 발생하는 교통사고의 수와 같이 특정한 사건이 일어날 확률이 아주 작은 경우에 사용하는 확률 모델이다. 단위 시간 당 희귀 현상의 평균 발생 횟수가 m일 때 어떤 특정한 단위 동안 발생한 현상의 수를 확률 변수 X로 정의한다. 그러면 확률변수 X는 0, 1, 2, ...의 값을 취하고, 모수가 m인 포아송분포(poisson distribution)을 따른다. 

모수가 m인 포아송분포의 확률질량함수는 다음과 같다.



모수 m을 갖는 포아송분포의 평균과 분산은 다음과 같다.



엑셀에서 포아송분포의 확률계산은 POISSON 함수를 이용하는데, 구체적인 사용법은 다음과 같다.


  • POISSON(x, mean, cumulative) :
- x : 단위 시간 동안의 발생 횟수
- mean : 단위 시간 동안의 평균 발생 횟수
- cumulative : 함수 형태를 결정하는 논리 값
  1 또는 TRUE이면 누적확률질량함수 값을 계산하고,
  0 또는 FALSE이면 확률질량함수 값을 계산한다.

만약에 사무실에 한 시간 동안 평균 10번의 전화가 걸려올 때, 12번 이상 걸려올 확률을 구하고 싶으면 11번 이하로 걸려올 확률 누적확률질량함수 값을 구해서 1에서 빼면 된다. 1 - POISSON(11, 10, 1) 

7번 걸려올 확률을 구하고 싶으면 POISSON(7, 10, 0)을 쓰면 된다.


 


참조: 엑셀데이터분석, 한국방송통신대학교 출판문화원, 조신섭 외 3명 공저

[엑셀 함수] NORMINV와 RAND함수로 정규분포 만들기



데이터 분석을 위해 정규분포를 임의로 만들어야 한다면


엑셀의 NORMINV와 RAND 함수를 사용해 보자.


NORMINV 설명 :


NORMINV 함수 구문에는 다음과 같은 인수가 사용됩니다.

  • probability     필수 요소입니다. 정규 분포를 따르는 확률입니다.

  • mean     필수 요소입니다. 분포의 산술 평균입니다.

  • standard_dev     필수 요소입니다. 분포의 표준 편차입니다


RAND 함수는 RAND()와 같이 사용하여 0~1사이의 난수를 발생시키는 함수이다.

아래의 =NORMIV(RAND(),1,1) 은 임의의 확률로 평균값 1을 가지고 표준편차 1을 가지는 함수를 만드는 식이다.



히스토그램으로 나타내면 다음과 같다.


만약에 일정한 군집을 이루는 데이터 셋을 만들고 싶다면,

X, Y를 위의 함수처럼 만들어주면 된다.




도움이 되셨으면 공감 한번  눌러주세요^^

+ Recent posts