얼레벌레

Ensemble, Random forest(앙상블학습, 랜덤포레스트) 본문

AI/ML

Ensemble, Random forest(앙상블학습, 랜덤포레스트)

낭낭이 2021. 9. 15. 16:11

랜덤 포레스트(Random Forest) : 결정 트리의 앙상블

 

앙상블 학습

⇨ 여러개의 예측기로부터 예측을 수집하여 보다 더 나은 모델을 구축하기 위한 학습 알고리즘

앙상블 학습은 예측기들끼리 가능한 서로 독립적일 때 가장 좋은 성능 발휘

 

어떻게 앙상블 학습 ??

1. 각기 다른 훈련 알고리즘 사용하기

일반적으로 투표기반 분류기가 개별 분류기보다 성능이 더 좋다.

  • 직접 투표 분류기 : 다수결 투표로 정해지는 분류기 ⇨ voting = 'hard'
  • 간접 투표 분류기 : 각각 분류기의 에측을 평균 내어 확률이 가장 높은 클래스를 예측하는 분류기 ⇨ voting = 'soft'

** 간접 투표 분류기는 모든 분류기가 확률을 예측할 수 있는 경우에 사용 가능. 확률이 높은 예측기에 가중치를 두어서 직접투표방식보다 성능 좋음

 

2. 같은 알고리즘을 사용하되, 훈련 세트의 서브셋을 무작위로 구성하여 분류기를 다르게 학습시키기

 

모든 예측기가 훈련을 마치면 앙상블은 각 예측기의 예측을 모아 새로운 샘플에 대해 예측함

수집함수로 분류일 경우 최빈값, 회귀의 경우 평균 계산 ⇨ 개별 예측기가 수집함수를 통과하면 편향과 분산이 모두 감소함

  • Bootstrap aggregating(부트스트래핑, 이하 Bagging(배깅) : 훈련 세트에서 중복을 허용하여 샘플링하는 방식

일반적으로 페이스팅보다 배깅이 더 나은 모델을 구축하지만, 교차검증으로 배깅과 페이스팅을 모두 평가하여 더 나은 쪽을 선택하는 것이 권장

중복을 허용하여 샘플링하는 경우 선택되지 않는 샘플도 존재(약 37%) ⇨ 이를 oob(out-of-bag) 샘플이라 칭함

따라서 따로 검증세트를 만들지 않고 이 oob 샘플을 활용하여 평가할 수도 있다 (oob_score = True)

  • Pasting(페이스팅) :  훈련 세트에서 중복을 허용하지 않고 샘플링하는 방식

 

 

 

'AI > ML' 카테고리의 다른 글

핸즈온머신러닝 Chap3 분류  (0) 2021.09.15
DECISION TREE ( 의사 결정 트리 )  (0) 2021.08.01
Comments