'Statictics & Math & Data Science/통계&데이터분석' 카테고리의 글 목록

Statictics & Math & Data Science/통계&데이터분석

[Multiple Comparisons & Adjustment] Adjusted P-value란? ( Bonferroni, Holm, Hommel, BH, BY) 2020.04.02
[데이터분석] 매니폴드(manifold)란? 2019.04.03
[통계] 차원의 저주와 K-NN(최근접이웃) 알고리즘 2019.04.03
[가중치 규제] L1 & L2 Regularization Method 2019.01.30
[확률분포] 확률변수, 확률질량함수, 확률밀도함수 2018.08.15
[실험계획법] 분산 분석(1) 총변동의 분할 2018.08.10
[실험계획법] 일원배치법 2018.08.10
[통계분석] 유의성 검정(2) - 유의확률 & 모평균 검정 2017.09.18
[통계분석] 유의성 검정(1) - 대립가설과 귀무가설, 가설 검정 2017.09.18
[6 시그마] 5. 개선단계 - SOP, 실험계획법(DOE), 실험설계, 일원배치법 2017.05.28

[Multiple Comparisons & Adjustment] Adjusted P-value란? ( Bonferroni, Holm, Hommel, BH, BY)

2020. 4. 2. 13:14

어떤 실험을 하고 결론을 내리기 위해선 가설 검정을 수행한 후 특정 통계량의 유의수준과 비교한다. 대게, p-value는 0.05나 0.01를 사용하곤 한다.
그러나 두 개 이상의 가설을 동시에 시험할 때(다중 비교) 통계적 추론이 잘못될 확률은 상당히 높아진다. False positive가 많이 발생하는데 생물학이나 의학에서는 이러한 거짓 양성(false positive)에 민감하여 p-value 조정(adjustment)이 필요하다. 하지만, 다양한 실험 특성에 적합한 adjustment 방법을 선택하기는 여전히 어렵다.

예를 들어 보자, Garcia-Arenzana(2014)은 스페인 여성들에게 유방암의 중요한 위험 요소인 유방조영술 밀도와 25가지 식이 변수의 연관성을 테스트했고 다음과 같은 결과를 확인했다.

보다시피 P<0.05를 만족하는 변수의 수는 5개이다. 하지만, 25개의 식이 변수를 동시에 검정했기 때문에, 식이요법이 유방조영학적 밀도에 실질적인 영향을 미치지 않았더라도, 한 두 개의 변수가 우연히 유의미한 결과를 보였을 거라고 예상했다. 이때, Bonferroni 보정을 적용하면 0.05를 25로 나눈 P<0.002를 만족해야된다. 그러면 총 칼로리(Total calories)만 유의하다.

아래에서 설명하겠지만 Bonferroni 보정의 사용은 일련의 검정에서 하나의 거짓 양성(false positive)가 문제가 될 때 적합하다. 하지만, 많은 변수를 한번에 검정해야 하고 그 중에서 의미있는 변수 여러 개를 찾고자 한다면, Bonferroni 보정은 거짓 음성(false negative)을 초래할 수 있다. 즉, 유의미한 변수를 놓칠 수 있다는 말이다.

예를 들어, 간암 조직과 정상 간 조직 사이에 있는 2만개의 유전자의 유의성을 비교한다고 하자. 당신은 의미가 서로 다른 다른 수십, 수백 개의 유전자를 찾기를 바라고 있다. 이때, Bonferroni 보정을 사용할 경우 P 값은 0.05/20000=0.0000025 보다 작아야 한다. 이렇게 되면, 단지, '단 하나의 거짓 양성도 포함하지 않는다'는 것을 확신하고자 한 이유만으로 많은 중요한 유전자 변수들을 놓칠 수 있다.

Bonferroni 교정의 중요한 문제는 통계 테스트의 "가족(family)"이 무엇인지 결정하는 것이다. 지금은 25개의 변수를 가지고 검정했는데, 여기에 연령, 교육, 사회적 지위 등과 같은 변수 13개가 추가된다면, P를 38로 나눠야 할까? 만약 이전 실험에서 다른 30개의 변수를 사용한다면 family를 55개로 정의해야 할까? 이처럼 Bonferroni adjustment에서는 family의 수를 정의하는데 어려움이 있다.

여기서 family-wise type 1 error의 개념이 나온다. family-wise type 1 error (FWER)란 family에서 false positive가 1개라도 발생할 확률을 의미한다.

FWER = 1 - Pr(V=0) = Pr(V>=1)

다중 비교 문제에 대한 고전적인 접근법은 이 FWER을 조절하는 것이다. 만약 FWER 이 0.05라면 한 연구에서 적어도 1개의 잘못된 결론이 나올 확률이 0.05라는 뜻이다. 이 FWER를 통제하기 위해 유의성 또는 알파에 대한 유의수준을 0.05로 설정하는 대신 더 낮은 임계값을 사용하는 방법이 있다.

1) Bonferroni adjustment

FWER 을 제어하는 가장 일반적인 방법은 Bonferroni 보정이다. Bonferroni adjustment는 FWER (일반적으로 0.05)을 검정 횟수로 나누어 개별 검정의 임계값(알파)을 찾는다. 만약, 100개의 통계적 시험을 수행하는 경우, 개별 검정의 임계값은 0.05/100=0.0005가 될 것이며, P<0.0005인 개별 검정은 유의하다고 간주한다.

하지만 Bonferroni 보정은 너무 보수적이어서 귀무가설이 잘 기각되지 않는 단점이 있다. 따라서 적절한 타협이 필요하다.

Fig1. Differences of the adjusted P values among various methods

Multi-step 보정방법

2) Holm adjustment

Holm adjustment는 multi-step 방법 중 step-down에 해당 하는 방법이다. Bonferroni 기법을 기반으로하는 좀 덜 보수적인 방법이다. 이 방법은 가설의 유의성에 따라 정렬하는 방법을 사용하는데 그 방법은 아래와 같다.

p-value를 낮은 순으로 정렬하고 높은 rank 일수록 보수적으로 검정하는 방법이다.

3) Hochberg adjustment

Hochberg adjustment는 multi-step 방법 중 step-up에 해당 하는 방법이다. Holm method와 유사하게 Hochberg adjustment도 비슷한 방법을 사용한다.

하지만 Hochberg 방법은 p-value를 높은 순으로 정렬하고 $ p_{(i)} \leq \alpha^{'}_{(i)} $ 인 $ \textrm H_{(i)} $ 가 나오면 비교를 멈추고 유의 수준에서 귀무가설을 기각한다.

4) Hommel adjustment

Simes(1986)는 Bonferroni method를 수정하여 m개의 가설에 대해 global test를 하는 방법을 제안했다.

$ H=\{ H_{(1)}, ..., H_{(m)} \} $ 일 때, $ p_{(i)} \leq i\frac{\alpha}{m} $ 이면 귀무가설 H가 기각된다.하지만 Simes의 global test 는 개별적인 가설에 대해 접근하는 방법이 아니기 때문에 Hommel(1988)는 Simes의 방법을 확장하여 individual $ H_i $에 대해 검정하는 방법을 제안한다.

$$ j=max \{ i \in \{ 1, ... , m \} : p_{(m-i+k)} > k{\alpha}/{i} \ for \ k=1, ... , i \}$$

만약 j 가 존재 하지 않는다면 모든 $ H_i $는 기각되고, 존재한다면 $ H_i $는 $ p_i \leq {\alpha}/{j} $ 를 만족하는 경우 기각한다.

5) Benjamini-Hochberg(BH) adjustment

FWER을 조절하는 방법과 달리 Benjamini와 Hochberg(1995)는 FDR(false discovery rate)을 조절하는 방법을 소개했다. FDR은 다중 비교에서 Type 1 error를 조절하는 또 다른 자주 쓰이는 지표로 유의하다고 판단한 가설 중 실제로 유의하지 않은 가설의 비율을 조절하는데 사용된다. FDR은 다음과 같이 정의한다.

여기서 m은 실험 횟수이고, $ m_0 $ 는 true(맞게 기각된) $ H_0 $ 의 수이다. R은 기각된 총 횟수, U는 잘못 기각된 $ H_0 $의 수이다.

BH method는 아래의 방법으로 FDR 을 조절한다. q는 사전 정의된 FDR의 upper bound 이다. (e.g., q=0.05)

$$ k = max \{ i : p_{(i)} \leq \frac{i}{m}q \} $$

만약 k가 존재하지 않는다면 가설을 기각하지 못하고, 존재한다면 가설 $ H_i (i = 1, ... , k) $를 기각한다. BH method는 p-value가 가장 큰 $ H_{(i)} $ (i=m, ..., 1) 부터 작은 순으로 비교 연산을 시작한다.

FDR 기반의 보정 방법은 다른 방법에 비해 덜 보수적이다. (Fig.1 참고) 그리고 실험 횟수가 많을 때 널리 사용된다.

아래의 그림을 보면, BH adjustment는 28개의 귀무가설을 기각하여, 보수적인 7개만 기각한 Holm's에 비해 어느정도 false positive를 허용한다.

6) Benjamini-Yekutieli (BY) adjustment

BH method와 비슷하지만 좀더 보수적인 방법이다. 마찬가지로 FDR 을 사용하여 조절하는 방법이며 Benjamini과 Yekutieli(2001)이 제안했다. 마찬가지로 q는 사전 정의된 FDR의 upper bound이다.

BY method는 아래와 같이 계산된다.

k가 존재하지 않는다면 가설을 기각하지 않고, 존재하면 가설 $ H_i $를 기각한다.

참조: Chen, S. Y., Feng, Z., & Yi, X. (2017). A general introduction to adjustment for multiple comparisons. Journal of thoracic disease, 9(6), 1725.

'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글

[데이터분석] 매니폴드(manifold)란? (0)	2019.04.03
[통계] 차원의 저주와 K-NN(최근접이웃) 알고리즘 (0)	2019.04.03
[가중치 규제] L1 & L2 Regularization Method (0)	2019.01.30
[확률분포] 확률변수, 확률질량함수, 확률밀도함수 (0)	2018.08.15
[실험계획법] 분산 분석(1) 총변동의 분할 (0)	2018.08.10

[데이터분석] 매니폴드(manifold)란?

2019. 4. 3. 18:00

[데이터분석] 매니폴드(manifold)란?

매니폴드를 설명할 때 대표적인 예시로 나오는게 스위스 롤이다.

swiss roll manifold에 대한 이미지 검색결과

스위스롤의 특징을 보면 3차원의 공간에 롤처럼 말린형태로 데이터가 분포해 있다.

이 데이터 공간에 개미가 한마리 살고 있다고 가정해보자. 우리는 롤 안쪽에서 바깥쪽의 거리를 계산할 때, 공간상에서 가로지르는 유클리디안 방식으로 거리를 구하기 때문에 거리가 가깝다. 하지만 개미의 입장에서는 점프를 할 수 없기 때문에 롤을 따라서 바깥으로 도달하기위한 거리는 훨씬 멀다. 그리고 개미의 입장에서는 비선형적인 곡선도 국부적으로는 직선으로 근사되기 때문에 평면으로 느낄 것이다. (매니폴드 상의 임의의 점도 미소 구간에서는 유클리디안 공간) 우리가 사는 세상을 지도로 보면 2차원이지만 실제로는 구 형태의 3차원 매니폴드에 있는 것과 같다.

매니폴드 학습이라는 단어의 주관적인 이해는 '눈을 감고(학습이되지 않은 상태에서) 비유클리디안 형태를 만져가며(데이터를 이용해) 모양을 이해해(모델을 학습해) 나간다'라고 이해하고 있다. 매니폴드 학습을 하게되면 학습된 모델의 latent vector(기저 벡터)는 우리가 생각하는 차원과 다를 수 있으며, 위의 스위스롤도 신경망 모델의 입장에선 경우에 따라 펼친 모양으로 학습을 하게 될 것이다.

위 그림에서 선이 없고 점만 있다고 가정하면 단순한 데이터의 분포로 보일 수 도 있다. 하지만 실제로는 꼬여있는 실처럼 실선은 매니폴드를 나타낸다. 그리고 그 선이 모델이 학습해야할 매니폴드이다. 이 선을 고차원으로 projection하면 그림에서 실의 한쪽 끝을 잡고 들어올린다고 생각해볼수 있다. 그러면 꼬인 실이 펴지게 된다. 이와 비슷하게 차원을 높임으로써 매니폴드 학습을 쉽게할 수도 있다. 실제로 신경망 모델은 중간 층의 차원을 높임으로써 매니폴드 학습을 한다.

'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글

[Multiple Comparisons & Adjustment] Adjusted P-value란? ( Bonferroni, Holm, Hommel, BH, BY) (0)	2020.04.02
[통계] 차원의 저주와 K-NN(최근접이웃) 알고리즘 (0)	2019.04.03
[가중치 규제] L1 & L2 Regularization Method (0)	2019.01.30
[확률분포] 확률변수, 확률질량함수, 확률밀도함수 (0)	2018.08.15
[실험계획법] 분산 분석(1) 총변동의 분할 (0)	2018.08.10

[통계] 차원의 저주와 K-NN(최근접이웃) 알고리즘

2019. 4. 3. 17:11

[통계, 머신러닝] 차원의 저주

차원의 저주란 차원이 증가함에 따라 탐색해야될 공간이 급격히 늘어나서 알고리즘 계산에 한계가 오는 경우를 말한다. 또는, 차원이 늘어남에 따라 기존의 데이터의 밀도가 급격히 줄어들어 예측력이 떨어지는 경우도 차원의 저주라고 한다.

예를 들어 아래의 세 점은 D1 차원에서만 설명할 땐 거리가 가까웠지만 D2라는 차원을 이용하는 순간 거리가 멀어졌다. 실제로는 그림보다 훨씬 거리가 늘어날 수 있고, 차원이 늘어날수록 기하급수적으로 데이터가 희박해진다.

이 경우 예측이 불안정해지고 과적합 위험이 커진다. 차원의 저주를 해결하는 방법은 데이터를 충분히 확보하는 것이지만 차원이 많이 증가하면 필요한 훈련 데이터의 수도 기하급수적으로 늘어나는 한계가 있다.

K-최근접이웃회귀와 차원의 저주

KNN 회귀는 주어진 K 값과 x0에 대해 x0에 가장 가까운 K개의 훈련 관측치 을 식별한다. 그다음 내 모든 훈련 관측치들에 대한 반응변수 값들의 평균을 사용하여 f(x0)을 추정한다.

KNN 분류는 가장 가까운 k개의 데이터를 보고 개수가 많은 class로 분류한다.

[출처 : 위키백과]

따라서 새로운 초록 점은 k=3 일땐 빨간색 세모와 같은 클래스가 되고, k=5 일땐 파란색 네모와 같은 클래스가 된다. 이 거리를 구할 때 유클리디안 거리를 사용하고, 단위에 따른 영향을 제거하기 위해 표준화를 한다. 또는, 데이터의 밀도를 고려하여 마할라노비스 거리(Mahalanobis distance)를 사용하기도 한다.

다시 본론으로 돌아와서, KNN 알고리즘은 유클리디안 거리를 사용하기 때문에 차원이 증가할수록 주어진 관측치에 가까운 이웃이 없는 현상이 발생한다. 이로인해 회귀에서는 차원이 4이상이면 선형회귀보다도 못한 성능을 낸다. 차원이 낮은 경우에도 해석력 관점에서 선형회귀를 더 선호할 수도 있다.

'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글

[Multiple Comparisons & Adjustment] Adjusted P-value란? ( Bonferroni, Holm, Hommel, BH, BY) (0)	2020.04.02
[데이터분석] 매니폴드(manifold)란? (0)	2019.04.03
[가중치 규제] L1 & L2 Regularization Method (0)	2019.01.30
[확률분포] 확률변수, 확률질량함수, 확률밀도함수 (0)	2018.08.15
[실험계획법] 분산 분석(1) 총변동의 분할 (0)	2018.08.10

[가중치 규제] L1 & L2 Regularization Method

2019. 1. 30. 20:41

[가중치 규제] L1 & L2 Regularization Method

데이터가 충분하지 않을 때, 데이터의 노이즈를 학습하여 모델이 과적합되는 경우가 있습니다.

아래 그림은 Underfitting부터 Overfitting이 되는 과정을 보여줍니다.

가중치 규제는 모델이 복잡해지지 않도록 모델 복잡도에 벌점(penalty)를 주는 것입니다. 여기서 복잡해진다는 말은 불필요한 항이 많아진다는 뜻입니다.

Regularization parameter인 람다는 절편을 제외한 항에 벌점을 주어 모델을 더 general하게 해줍니다.

● Cost function에 규제 항 추가하기

① 계수(가중치)의 절대값에 비례하는 penalty 추가 : L1 규제 → Lasso Regression

L1 규제는 일부 계수 값을 완전히 0으로 만들 수 있다.

② 계수(가중치)의 제곱에 비례하는 penalty 추가 : L2 규제 → Ridge Regression

L2 규제는 계수 값을 작게 만들지만 완전히 0이 되진 않는다.

※ 가중치 규제의 특징

만약 λ가 0이면 OLS 형태가 된다.
만약 λ가 너무 크면 Under fitting이 된다.
중요하지 않은 항의 계수를 0으로 만들기 때문에 주요변수 선택에도 활용된다.
적절한 λ값을 찾는 것이 중요하다.

도움이 되셨다면 공감 부탁드려요!

'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글

[데이터분석] 매니폴드(manifold)란? (0)	2019.04.03
[통계] 차원의 저주와 K-NN(최근접이웃) 알고리즘 (0)	2019.04.03
[확률분포] 확률변수, 확률질량함수, 확률밀도함수 (0)	2018.08.15
[실험계획법] 분산 분석(1) 총변동의 분할 (0)	2018.08.10
[실험계획법] 일원배치법 (0)	2018.08.10

[확률분포] 확률변수, 확률질량함수, 확률밀도함수

2018. 8. 15. 17:25

[확률분포] 확률변수, 확률질량함수, 확률밀도함수

확률변수는 크게 이산형 확률변수와 연속형 확률변수로 나눌 수 있다.

이산형은 책의 페이지당 오자의 수, 제품 한 상자에서 나온 불량품의 개수, 주사위를 5번 던질 때 짝수가 나오는 횟수 등과 같이 확률 변수가 취할 수 있는 값이 정수와 같이 유한하거나 셀 수 있는 값을 취하는 경우의 확률 변수이다.

연속형 확률변수는 사람의 키, 제품의 무게와 같이 정확한 값보다는 어떤 구간의 값을 취하는 형태에서 사용한다. 100명의 키를 조사해서 분포로 나타낼 때, 175.34는 몇 명 180.18은 몇 명 이렇게 나타내지 않고 170~175cm 몇 명(n/S)와 같이 구간으로 나타낸다. 여기서 표본 공간에서 조건을 만족하는 원소의 개수를 구하면 확률이다.

동전던지기를 4번 해서 뒷면이 나올 확률은 아래와 같다.

x	0	1	2	3	4
P{X = x}	1/16	4/16	6/16	4/16	1/16

위의 표에서 p(x) = P{X, x}는 확률변수 X가 취할 수 있는 값에 대해 확률을 대응시킨 관계를 나타내며 확률 분포 또는 분포함수라고 한다.

이산형 확률변수의 분포함수는 이산점의 확률을 나타내므로 도수 분포 그래프로 나타내진다. 그리고 분포함수 p(x)를 확률질량함수라고 부른다.

연속형 확률변수의 확률분포는 확률변수 X가 어떤 구간에 속할 확률을 나타내므로 면적이 확률이 된다. 연속형 분포함수는 흔히 f(x)로 나타내고 확률밀도함수라고 부른다. 확률변수 X가 구간 (a, b)에 속할 확률 P(a< x <=b)는 곡선의 구간 (a, b) 면적이 된다.

특정 조건을 만족하는 이벤트의 확률을 구할 때, 이산형 확률은 더하고, 연속형 확률은 적분한다.

참조: 엑셀데이터분석, 한국방송통신대학교 출판문화원, 조신섭 외 3명 공저

'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글

[통계] 차원의 저주와 K-NN(최근접이웃) 알고리즘 (0)	2019.04.03
[가중치 규제] L1 & L2 Regularization Method (0)	2019.01.30
[실험계획법] 분산 분석(1) 총변동의 분할 (0)	2018.08.10
[실험계획법] 일원배치법 (0)	2018.08.10
[통계분석] 유의성 검정(2) - 유의확률 & 모평균 검정 (0)	2017.09.18

[실험계획법] 분산 분석(1) 총변동의 분할

2018. 8. 10. 00:23

[실험계획법] 분산 분석

변동을 정의하려면 어느 점으로부터의 산포인지 나타내는 자료의 중심과, 자각 자료가 중심으로부터 얼마나 떨어져 있는지를 나타내는 거리의 개념이 필요하다. 따라서 특성값 의 총평균 로부터의 거리인 총편차는 아래와 같이 분해할 수 있다.

총 편차 = ( 에 기인하는 편차) + (잔차)

위 식의 양변을 동시에 제곱하여 전체 데이터의 제곱의 합을 구하면 아래와 같다. 여기서 좌변을 총변동 SST(Total Sum of Squares)로 표현한다.

우변의 첫 번째 항은 각 수준효과 간의 차이에 기인하는 편차들의 제곱합이므로 처리제곱합 또는 급간 변동이라고 부르고 SSA로 나타낸다. 우변의 두 번째 항은 각 처리수준 내에서의 잔차들의 제곱합이므로 잔차제곱합 또는 급내변동이라고 부르고 SSE로 표현한다.

위의 값을 일일이 계산하는 방법도 있지만 간편계산법도 있다.

도움이 되셨으면 공감 한번 눌러주세요^^

'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글

[가중치 규제] L1 & L2 Regularization Method (0)	2019.01.30
[확률분포] 확률변수, 확률질량함수, 확률밀도함수 (0)	2018.08.15
[실험계획법] 일원배치법 (0)	2018.08.10
[통계분석] 유의성 검정(2) - 유의확률 & 모평균 검정 (0)	2017.09.18
[통계분석] 유의성 검정(1) - 대립가설과 귀무가설, 가설 검정 (0)	2017.09.18

[실험계획법] 일원배치법

2018. 8. 10. 00:22

[실험계획법] 일원배치법

일원배치법은 한 인자에서 3개 이상의 처리(온도, 압력, 품종 등)에서 모평균의 차이가 있는지 비교하는 방법이다.

일원배치법은 다음과 같은 경우에 흔히 활용된다.

특성값에 영향을 미치는 다양한 요인 중에서 특정 요인의 영향을 조사하고자 할 경우
특성값에 영향을 미치는 여러 요인에 대한 검증이 어느 정도 진척되고, 이들 요인 중에서 특성값에 큰 영향을 미칠 것으로 예상되는 특정한 한 요인의 영향을 조사하고자 할 경우

일원배치법은 수준 수와 반복 수에 제한이 없으며, 결측치가 있어도 분석이 용이하다는 장점이 있다.

요인수준의 선택에는 두 가지 방법이 있다. 하나는 실험자가 스스로 특정한 실험 수준을 선택하는 것이고, 다른 하나는 특정 범위 내에서 임의로 선택되는 경우이다. 실험자가 특정한 실험 수준을 선택하는 경우, 요인의 수준이 고정되었다고 하며, 고정 모형 또는 모수 모형이라고 부른다. 반면 처리 수준이 일정 범위 내에서 랜덤하게 선택되는 경우, 랜덤 모형 또는 변량 모형이라고 한다.

고정 요인은 특정 온도, 압력 등과 같이 각 수준이 기술적인 의미를 갖기 때문에 특정 수준에서의 효과와 최적 조건을 구하는데 관심이 있다.

반면 랜덤 요인은 원자재 로트, 실험이르 작업자 등과 같이 요인의 수준이 랜덤하게 선택되는 경우로, 반응치(특성치)가 기술적인 의미를 갖지 못하기 때문에 수준 간의 산포의 크기인 분산 성분에 관심이 있다.

이 표와 같이 인자의 수준에 따라서 실험을 반복하고 그 평균을 계산한다. 우리가 알고 싶은 건 인자의 수준에 따라 평균->모평균에 차이가 있는지 여부이다. 이를 통계적으로 검정하기 위해서는 각 수준에 대한 모집단 모형이 필요하다. 이때, 각 수준에 해당하는 모집단은 서로 독립적이고, 평균이 , 공통 분산 을 갖는 정규 분포라고 가정한다. 여기서 귀무 가설과 대립 가설은 아래와 같다.

H0 : 각 수준 별 평균이 모두 같다.

H1 : 모든 평균이 같은 것은 아니다.

인자의 수준에 따라 실험 결과가 다르면(인자가 유의미한 차이를 만들면) 대립 가설 H1이 채택될 것이다.

a개의 모평균에 차이가 있는지 검정하는 것은 a개의 수준 효과 간 차이가 있는지 검정하는 것과 같으므로 수준효과 간 차이를 라고 한다면, 가설을 다음과 같이 표현할 수 도 있다.

H1 : 모든 가 0인 것은 아니다.(적어도 하나의 는 0이 아니다.)

그러면 어떻게 검정 할까?

분산분석을 이용!

분산분석 바로가기

도움이 되셨으면 공감 한번 눌러주세요^^

'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글

[확률분포] 확률변수, 확률질량함수, 확률밀도함수 (0)	2018.08.15
[실험계획법] 분산 분석(1) 총변동의 분할 (0)	2018.08.10
[통계분석] 유의성 검정(2) - 유의확률 & 모평균 검정 (0)	2017.09.18
[통계분석] 유의성 검정(1) - 대립가설과 귀무가설, 가설 검정 (0)	2017.09.18
[6 시그마] 5. 개선단계 - SOP, 실험계획법(DOE), 실험설계, 일원배치법 (0)	2017.05.28

[통계분석] 유의성 검정(2) - 유의확률 & 모평균 검정

2017. 9. 18. 23:27

[통계분석] 유의성 검정(2) - 유의확률, Z 검정, T 검정, 카이제곱 검정

가설검정을 수행하려면 유의확률이 무엇인지 알아야 한다. 아마 다들 p-값이라는 걸 한번쯤은 들어봤을 것이다.

p-값은 유의확률이라고도 하며 0.05의 유의수준이라고 함은, 쉽게말해 내가 주장하는 가설이 우연한 현상일 확률이 5% 미만이라는 뜻이다.

즉, 귀무가설 H0가 옳을 때 0.05 이하의 확률로 발생하는 사건이라야 H0에 배치되는 증거로 인정하여 대립가설을 채택한다는 의미이다.

유의수준이 낮을 수록(예를 들어 0.01) 우연을 가장한 현상일 확률을 배제함으로서 더 신뢰도 있는 대립가설이 된다.

(요즘에는 유의확률 개념 자체가 오류를 일으킬 만한 소지가 다분하다는 이유로 p-값에 의한 가설검정을 안 믿기도 한다.)

1. 모평균의 검정

1) 모분산을 아는 경우

정규분포를 따르는 모집단에서 추출한 랜덤표본을 이용하여 유의성검정(1)의 글에서 같이 모평균에 대한 가설을 검정하는 경우이다. 모분산을 아는경우에는 Z 검정(Z-test) 통계량을 사용하며

시그마 : 표준편차, n : 표본의 개수, Xbar : 표본평균, u : 모평균(가설)

예제) 어떤 과즙의 당분 함량을 분석을 통해 아래와 같이 얻었다. 이로부터 당분의 평균 함량이 14.3%라는 주장이 옳은지 유의수준 0.05에서 검정해보자.

과거의 경험에 의하면 과즙의 당분 함량은 정규분포를 따르고, 모표준편차는 0.75라고 알려져있다.

위의 함수에서 Z.TEST는 z-검정의 단측 p 값을 나타내는 것이므로 곱하기 2를 해준다. 그리고 데이터와 u, 모표준편차를 입력하면 된다.

결과값은 0.164로 0.05보다 크므로 대립가설이 기각된다.(가설이 받아들여지지 않음)

2) 모분산을 모르는 경우

모분산을 모르는 경우 모평균 u에 대한 가설검정은 모표준편차 대신에 표본표준편차를 사용한다. 그리고 통계량은 T-검정통계량을 사용한다.

검정 통계량 T

표본 표준편차 S

엑셀 함수는 T.DIST(x, 자유도, Tails) 단측검정의 Tails=1, 양측검정은 Tails=2이다.

도움이 되셨으면 공감 한번 눌러주세요^^

'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글

[실험계획법] 분산 분석(1) 총변동의 분할 (0)	2018.08.10
[실험계획법] 일원배치법 (0)	2018.08.10
[통계분석] 유의성 검정(1) - 대립가설과 귀무가설, 가설 검정 (0)	2017.09.18
[6 시그마] 5. 개선단계 - SOP, 실험계획법(DOE), 실험설계, 일원배치법 (0)	2017.05.28
[데이터 분석] 상관분석(Correlation)과 교차 상관분석(Cross Correlation) (0)	2017.05.21

[통계분석] 유의성 검정(1) - 대립가설과 귀무가설, 가설 검정

2017. 9. 18. 23:08

[통계분석] 유의성 검정(1) - 대립가설과 귀무가설, 가설 검정

우리는 대부분 표본을 가지고 모집단을 추정하곤한다. 모집단의 분포를 추정, 가정하는 것을 가설이라고 하며, 표본을 이용하여 가설의 옳고 그름을 판정하는 것을 가설검정 또는 유의성 검정이라고 한다.

통계적 가설은 귀무가설과 대립가설로 나눌 수 있으며, 수집된 자료를 이용하여 주장하고 싶은 가설을 대립가설(H1)이라고 하고, 이와 반대되는 가설을 귀무가설(H0)라고 한다.

예를 들어 보자.

어느 제약회사에서 생산하는 진통제 A는 복용 후 30분부터 진통효과가 나타나는 것으로 알려져 있다. 회사의 연구진은 새로 개발된 진통제 B가 기존의 진통제 A보다 진통효과를 더 빨리 나타낸다고 주장하고 있다. 과연 연구진의 주장이 옳은지 여부를 확인하기 위해 36명의 환자를 랜덤 추출하여 진통제 B를 복용시킨 후, 진통효과가 나타나는 시간을 측정한 결과, 표본평균이 29분 이었다고하자. 과거의 경험에 의하면 표준편차는 3분이라고 한다. 연구진의 주장이 옳은가?

여기서 연구진이 주장하고자 하는 것은 새로운 진통제가 진통효과를 나타내는 시간이 30분보다 짧다(u<30)는 것이다. 따라서 대립가설은

H1 :u<30 이고, 귀무가설 H0 : u>=30이다.

(이렇게 30을 기준으로 크다 작다를 나누는 것을 단측가설이라고 하고 H0: u = 30, H1 : u != 30 인 경우는 양측가설이라고 한다.)

위의 가설 중 어느 가설이 옳은지 알아보기 위해서는 표본평균 Xbar를 계산하여 그것의 값이 크면 귀무가설이 옳다고 판단하고, 그 값이 작으면 대립가설이 옳다고 판단한다. 이때 가설의 옳고 그름 여부를 판단하는데 사용하는 통계량을 검정 통계량이라고 한다. 이 문제의 경우는 모평균에 대한 가설 검정 문제이므로 Xbar가 검정통계량이 된다.

검정통계량이 정해지면 검정통계량의 값이 어느 정도일때 귀무가설이 옳다고 판단하느냐 하는 기준을 선택히야한다. 이를 위해 귀무가설을 기각하는 검정통계량의 값의 영역인 기각역을 설정한다. Xbar < c 일때 귀무가설을 기각할텐데, 이 c의 값을 결정하기 위해서는 Xbar의 분포를 알아야 한다.

도움이 되셨으면 공감 한번 눌러주세요^^

'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글

[실험계획법] 일원배치법 (0)	2018.08.10
[통계분석] 유의성 검정(2) - 유의확률 & 모평균 검정 (0)	2017.09.18
[6 시그마] 5. 개선단계 - SOP, 실험계획법(DOE), 실험설계, 일원배치법 (0)	2017.05.28
[데이터 분석] 상관분석(Correlation)과 교차 상관분석(Cross Correlation) (0)	2017.05.21
관측자 편향이란? (0)	2017.01.11

[6 시그마] 5. 개선단계 - SOP, 실험계획법(DOE), 실험설계, 일원배치법

2017. 5. 28. 22:57

[6 시그마] 5. 개선단계 - SOP, DOE

개선(Improvement)단계에서는 분석단계에서 추출한 여러 핵심인자에 대한 개선조치를 하여 종속변수를 최적의 상태로 만드는 것이 목표이다.

핵심인자는 그 성격에 따라 다음과 같이 세 가지 형태로 구분할 수 있다.

단순한 개선을 필요로 하는 단순개선인자
절차를 표준화하여 개선 할 수 있는 인자
실험계획법을 통해 최적조건을 도출해야 하는 복잡한 인자.

이 중 첫 번째, 단순개선인자의 예로는, A부품보다 B부품을 쓰는 것이 비용, 품질 등의 면에서 좋다면 B를 선택하는 것이다.

두번째로 절차를 표준화 함으로써 개선을 할 수 있는 경우 표준화(예를 들어 SOP(Standard Operating Procedure)를 통해 개선할 수 있다.

마지막으로 핵심인자가 서로 상호관계를 가지고 종속변수에 영향을 미치는 복잡한 경우 실험계획법(Design Of Experiment, DOE)을 이용하여 개선을 꾀한다. 실험계획법을 적용하여 실시한 실험에서 나온 데이터를 분석하면 치명적 소수인자를 가려낼 수 있다.

개선 후 종속변수의 변동으로 인해 나타나는 시그마 수준이나 COPQ(Cost Of Poor Quality)의 차이를 통해서 개선이 얼마나 성과가 있었는지 파악할 수 있다. COPQ는 개선의 효과를 금액으로 환산하는 척도이다.

실험설계 개요

실험을 계획할 때에는 고려해야 할 사항이 몇가지 있다.

1) 랜덤화 : 실험 단위나 순서를 랜덤하게 결정하여, 순서에 의한 영향을 배제하는 방법으로 난수표 등을 이용할 수 있다.

2) 반복 : 똑같은 실험을 여러 번 하여 추정치의 불확실성을 줄여주기 위해 사용한다. 하지만 비용도 증가한다.

3) 블록화 : 대조군의 조건이 같은 경우 블록화가 필요없지만, 조건이 다르다면 블록화를 먼저 해야한다.

일원배치법 (link)

일원배치법(one-way ANOVA)이란 관심의 대싱이 되는 하나의 인자(factor)와 종속변수 또는 산출물 간의 관계를 밝히기 위해 어떻게 실험을 실행하고, 이로부터 나온 데이터를 어떻게 분석하는지 살펴보는 것이다.

1) 모수인자(fixed factor)

인자가 고정된 경우(예를 들어 반응기의 온도가 80, 100도씨인 경우)이다. 모수인자는 고정인자라고도 부른다.

'이 인자의 수준에 따라 반응치가 달라지는지', '반응값에 대한 최적 조건은 무엇인지'가 분석의 관심사이다.

2) 변량인자(random factor)

예를 들어 선정된 반응 온도가 아주 많은 반응 온도 중 랜덤하게 일부 뽑힌 경우이다. 변량인자의 경우에는 각 수준(예: 온도 조건)이 기술적으로 큰 의미를 가지지 못하므로 변랑인자의 수준 간 산포의 크기와 이 추정치가 반응값의 총 분산 중에서 차지하는 비율에 대해 관심이 있다.

'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글

[실험계획법] 일원배치법 (0)	2018.08.10
[통계분석] 유의성 검정(2) - 유의확률 & 모평균 검정 (0)	2017.09.18
[통계분석] 유의성 검정(1) - 대립가설과 귀무가설, 가설 검정 (0)	2017.09.18
[데이터 분석] 상관분석(Correlation)과 교차 상관분석(Cross Correlation) (0)	2017.05.21
관측자 편향이란? (0)	2017.01.11

PREV 1 2 NEXT

Hack your life