IT/Meachine Learning4 Random Forests Random Forests란?하나의 결과에 도달하기 위해 여러 의사결정 트리의 출력을 결합회귀 문제를 모두 다루며 사용 편의성과 유연성이 뛰어나 도입이 가속화Random Forests 장점Classification 및 Regression 문제에 모두 사용 가능Missing value를 다루기 쉬움대용량 데이터 처리에 효고적모델의 노이즈를 심화시키는 Overfitting 문제를 회피하여, 문제 정확도를 향상 시킴Classification 모델에서 상대적으로 중요한 변수를 선정 및 Rangking 가능원리예를 들어 건강의 위험도를 예측하기 위해서 많은 요소(성별, 키, 몸무게, 지역, 운동량, 흡연 여부, 혈당, 근육량, 기초 대사량 등등) 수많은 요소를 기반으로 건강의 위험도를 예층한다면 분명 오버피팅이 .. 2024. 8. 6. Underfitting and Overfitting Underfitting : 지나친 단순화로 인해 에러가 많이 발생하는 현상Overfitting: 너무 정확하게 표현한 나머지 에러가 나는 현상Overfitting의 원인과 해결방법1. Model Capacity모델이 더 복잡한 형상을 나타낼 수 있는 정도를 의미MLP에서 Model Capacity를 늘리려면 layer를 더 deep하게 쌓거나 layer당 hidden unit 개수를 늘린다.Model Capacity를 무한정 늘린다면 overfitting이 발생True Risk: 이상적으로 가져올 수 있는 모든 데이터에 대해 계산한 error, loss. 앞으로 어떤 데이터가 들어올지 모르므로, 실제로 줄여야 하는 것은 True RiskEmpirical Risk: 이상적으로 가져올 수 있는 데이터 중 일.. 2024. 8. 5. MAE(Mean Absolute Error), 평균절대오차 MAE란?평균 절대 오차인 MAE는 회귀 모델의 성능을 평가하는 데 사용되는 일반적인 메트릭 입니다. 모델의 예측 값과 실제 값 사이의 절대 평균 차이를 측정합니다. MAE는 어떻게 작동?각각의 예측 값과 실제 값 간의 절대 차이를 계산한 다음에 이 차이들의 평균을 구하는 방식. MAE는 오류의 절댓값을 사용하기 때문에 작은 오류에 더 심하게 패널티를 부여데이터 사이언스에서 MAE가 중요한 이유회귀 모델의 정확도를 측정하기에 간단하면서도 직관적인 방법데이터의 극단적인 값에 영향을 받지 않기 때문에 데이터에 이상 값이 있거나 기타 극단적인 값이 포함된 상황에서 유용하게 쓰일 수 있는 메트릭이 됩니다.MAE vs MSEMAE는 예측 값과 실제 값 간의 평균 절대 차이를 측정MSE는 평균 제곱 차이를 측정,(.. 2024. 8. 5. Decision Tree Regression (의사결정나무), sklearn활용 1. 의사결정나무(Decision Tree)데이터 사이에 존재하는 패턴을 찾아 이 규칙들의 조합으로 예측 모델을 만드는데 쓰이는 알고리즘설명 변수를 '하나씩만' 활용하여 가지뻗기를 진행한다.의사결정나무는 규칙을 조합하여 데이터에 대한 예측 모델을 이룬다.분류(Classification) 문제와 회귀(Regression) 문제 모두 적용가능한데분류문제의 경우 해당 데이터가 최종적으로 속한 최하위 그룹의 최빈값을 예측 값으로 활용회귀문제의 경우 그 그룹 내 데이터의 평균값을 예측값으로 활용한다.2. 의사결정나무의 철학한 가지 질문에 대한 답변에 정답을 추리는데 도움이 된다면 정보획득(Information Gain)이라고 부른다.이렇게 얼마나 도움이 되는지를 순도(homogeneity)라고 한다.이와 반대로 .. 2024. 8. 5. 이전 1 다음