[가중치 규제] L1 & L2 Regularization Method
데이터가 충분하지 않을 때, 데이터의 노이즈를 학습하여 모델이 과적합되는 경우가 있습니다.
아래 그림은 Underfitting부터 Overfitting이 되는 과정을 보여줍니다.
가중치 규제는 모델이 복잡해지지 않도록 모델 복잡도에 벌점(penalty)를 주는 것입니다. 여기서 복잡해진다는 말은 불필요한 항이 많아진다는 뜻입니다.
Regularization parameter인 람다는 절편을 제외한 항에 벌점을 주어 모델을 더 general하게 해줍니다.
● Cost function에 규제 항 추가하기
① 계수(가중치)의 절대값에 비례하는 penalty 추가 : L1 규제 → Lasso Regression
L1 규제는 일부 계수 값을 완전히 0으로 만들 수 있다.
② 계수(가중치)의 제곱에 비례하는 penalty 추가 : L2 규제 → Ridge Regression
L2 규제는 계수 값을 작게 만들지만 완전히 0이 되진 않는다.
※ 가중치 규제의 특징
만약 λ가 0이면 OLS 형태가 된다.
만약 λ가 너무 크면 Under fitting이 된다.
중요하지 않은 항의 계수를 0으로 만들기 때문에 주요변수 선택에도 활용된다.
적절한 λ값을 찾는 것이 중요하다.
도움이 되셨다면 공감 부탁드려요!
'Statictics & Math & Data Science > 통계&데이터분석' 카테고리의 다른 글
[데이터분석] 매니폴드(manifold)란? (0) | 2019.04.03 |
---|---|
[통계] 차원의 저주와 K-NN(최근접이웃) 알고리즘 (0) | 2019.04.03 |
[확률분포] 확률변수, 확률질량함수, 확률밀도함수 (0) | 2018.08.15 |
[실험계획법] 분산 분석(1) 총변동의 분할 (0) | 2018.08.10 |
[실험계획법] 일원배치법 (0) | 2018.08.10 |