본문 바로가기
IT/Meachine Learning

Random Forests

by Cyber_ 2024. 8. 6.

Random Forests란?

  • 하나의 결과에 도달하기 위해 여러 의사결정 트리의 출력을 결합
  • 회귀 문제를 모두 다루며 사용 편의성과 유연성이 뛰어나 도입이 가속화

Random Forests 장점

  • Classification 및 Regression 문제에 모두 사용 가능
  • Missing value를 다루기 쉬움
  • 대용량 데이터 처리에 효고적
  • 모델의 노이즈를 심화시키는 Overfitting 문제를 회피하여, 문제 정확도를 향상 시킴
  • Classification 모델에서 상대적으로 중요한 변수를 선정 및 Rangking 가능

원리

예를 들어 건강의 위험도를 예측하기 위해서 많은 요소(성별, 키, 몸무게, 지역, 운동량, 흡연 여부, 혈당, 근육량, 기초 대사량 등등) 수많은 요소를 기반으로 건강의 위험도를 예층한다면 분명 오버피팅이 일어날 것, 예를 들어 feature가 30개라고 한다면 30개의 feature를 기반으로 하나의 결정 트리를 만든다면 트리의 가지가 많아질 것이고, 이는 오버피팅을 야기할 것이다. 하지만 30개의 feature 중 랜덤으로 5개의 feature만 선택해서 하나의 결정 트리를 만들고, 또 30개 중 랜덤으로 5개의 결정 트리를 만들고를 반복하여 여러개의 결정트르의 예측 값들 중 가장 많이 나온 값을 최종 예측 값으로 정하는 것, 이렇게 의견을 통합하거나 여러 가지 결과를 합치는 방식을 앙상블(Ensemble) 이라고 한다.

Reference

https://www.ibm.com/kr-ko/topics/random-forest
https://bioinformaticsandme.tistory.com/167
https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-5-%EB%9E%9C%EB%8D%A4-%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8Random-Forest%EC%99%80-%EC%95%99%EC%83%81%EB%B8%94Ensemble