Bagging

2024. 2. 10. 21:27ML

Bagging

 

https://medium.com/dawn-cau/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EC%95%99%EC%83%81%EB%B8%94-%ED%95%99%EC%8A%B5-%EC%9D%B4%EB%9E%80-cf1fcb97f9d0

 

Boostrap Aggregting

주어진 data에서 여러개의 boostrap을 생성하고 각 boostrap에 예측 모형을 만든 후 결합해 최종 예측모형을 만드는 방법

샘플을 여러번 뽑아(boostrap) 각 모델을 학습시킨 다음 결과물을 집계(aggregation)하는 방법

 

categorical data 일 경우

voting방법으로 집계 - 전체 모델에서 예측한 값 중 가장 많은 값을 최종 예측값으로 선정한다는 것

continuous data 일 경우

평균으로 집계 - 각각의 결정트리모델이 예측한 값에 평균을 취해 최종 예측값을 결정

 

학습데이터가 충분하지 않더라도 충분한 학습효과를 낼 수 있다.

-> 높은 bias의 underfitting문제나 높은 variance overfitting문제에 도움이 됨

 

대표적으로 RandomForest가 있다.

 

* Boostrap

:random sampling을 적용하는 방법

data set 1개에서 B번의 simulation을 통해 새로운 data set B개를 sampling하는 방법

표본 안에서 또 표본 추출을 하는 방법

  1.  n개의 표본이 있다
  2. 1개씩 n'번 표본을 복원 추출로 꺼낸다
  3. 모여진 n'개의 표본의 평균을 구한다
  4. 앞의 과정을 k 번 반복한다

일반적으로 평균을 추정하기 위해 큰 샘플(n>30) 평균을 구해 중심극한정리를 적용하지만 

부트스트랩을 이용하면 중김극한정리를 이용하지 않고도 신뢰구간을 구할 수 있다.

데이터가 모자를때 조금씩 변형해서 데이터를 부풀리는 augmentation과 비슷

 

 

 


참고 및 출처 : https://recipesds.tistory.com/entry/%EB%B6%80%ED%8A%B8%EC%8A%A4%ED%8A%B8%EB%9E%A9%EC%97%90-%EA%B4%80%ED%95%9C-%EC%9D%B4%EA%B2%8C-%EB%AC%B4%EC%8A%A8-%EC%86%8C%EB%A6%AC%EC%9D%B8%EA%B0%80-%ED%95%98%EB%8A%94-%EC%9D%B4%EC%95%BC%EA%B8%B0  , https://medium.com/dawn-cau/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EC%95%99%EC%83%81%EB%B8%94-%ED%95%99%EC%8A%B5-%EC%9D%B4%EB%9E%80-cf1fcb97f9d0

'ML' 카테고리의 다른 글

GBM  (0) 2024.02.12
Boosting,AdaBoost  (0) 2024.02.11
Voting  (0) 2024.02.10
Cross Validation  (0) 2024.02.02
Hyper Parameter  (0) 2024.01.28