Bagging

Bagging

2024. 2. 10. 21:27ㆍML

Boostrap Aggregting

주어진 data에서 여러개의 boostrap을 생성하고 각 boostrap에 예측 모형을 만든 후 결합해 최종 예측모형을 만드는 방법

샘플을 여러번 뽑아(boostrap) 각 모델을 학습시킨 다음 결과물을 집계(aggregation)하는 방법

categorical data 일 경우

voting방법으로 집계 - 전체 모델에서 예측한 값 중 가장 많은 값을 최종 예측값으로 선정한다는 것

continuous data 일 경우

평균으로 집계 - 각각의 결정트리모델이 예측한 값에 평균을 취해 최종 예측값을 결정

학습데이터가 충분하지 않더라도 충분한 학습효과를 낼 수 있다.

-> 높은 bias의 underfitting문제나 높은 variance overfitting문제에 도움이 됨

대표적으로 RandomForest가 있다.

:random sampling을 적용하는 방법

data set 1개에서 B번의 simulation을 통해 새로운 data set B개를 sampling하는 방법

표본 안에서 또 표본 추출을 하는 방법

일반적으로 평균을 추정하기 위해 큰 샘플(n>30) 평균을 구해 중심극한정리를 적용하지만

부트스트랩을 이용하면 중김극한정리를 이용하지 않고도 신뢰구간을 구할 수 있다.

데이터가 모자를때 조금씩 변형해서 데이터를 부풀리는 augmentation과 비슷

성지우의 블로그