[ML] 앙상블, 부스팅

Bootcamp/AI

K_Hyul 2023. 10. 18. 11:34

728x90

현재 train을 할 때, train data와 정답을 모르는 test data만 가지고 있다.

제출횟수가 제한되어 있는 경우 정답률 확인하기 위해선 train data를 나눌 필요가 있다.

train data를 train data와 정답을 아는 test data로 나누어 해결한다.

하지만 이때 train data가 많이 줄어 들기 때문에 train data를 random으로 여러개 병렬식으로 하면 될거 같다.

Bagging = data 복원 추출로 train data를 나눠(data set = random) Decision Tree model들을 여러개 넣어 최종 모델을 넣음

Random Forest = Decision tree를 여러개 사용, n_estimator => Decision tree 몇개 쓸건지

Boosting = dataset을 조작해 다른 data를 학습 시키는 방식

Gradient Boost = max_depth 1,5이하로 설정해 사용

XG Boost = GBM을 병렬 학습 지원 -> GBM보다 속도가 빠름

Light GBM = XG Boost보다 빨라짐

catboost = 범주형 변수가 많을 경우 사용

Voting = 모델 여러개 사용하고 Hard인 경우 다수결로 결정, soft인 경우 확률을 평균으로 해서 결정

728x90