4단원 개념 학습 문서: 의사결정트리와 앙상블

의사결정트리: 스무고개 탐정의 질문법

의사결정트리(Decision Tree) 알고리즘은 이름은 어려워 보이지만, 원리는 우리가 어릴 때부터 즐겨 하던 '스무고개 놀이'와 똑같습니다. 이 알고리즘은 마치 스무고개 탐정처럼, 가장 핵심적인 질문들을 연속으로 던져서 정답의 범위를 점차 좁혀나가는 방식으로 작동합니다.

비유: 별의 종류 맞히기

밤하늘의 수많은 별 중 하나의 종류를 맞혀야 한다고 상상해봅시다. 의사결정트리는 데이터를 가장 잘 나눌 수 있는 '최적의 질문'을 스스로 찾아냅니다.

"그 별의 온도는 20,000K보다 높은가요?" (네/아니오)
"그럼 절대 등급은 10보다 높은가요?" (네/아니오)

이처럼 질문에 대한 답변에 따라 데이터를 두 그룹으로 나누고, 나뉜 각 그룹 안에서 또다시 가장 좋은 질문을 찾아 계속해서 가지를 쳐 나갑니다. 이 과정이 나무(Tree)가 가지를 뻗는 것 같아 '의사결정트리'라는 이름이 붙었습니다.

의사결정트리의 강점과 약점

강점 (설명 가능성): 의사결정트리의 가장 큰 장점은 '설명 가능성'입니다. 모델이 어떤 기준으로 예측을 내렸는지, 그 결정 과정이 나무 구조를 통해 명확하게 드러나기 때문에, 왜 특정 데이터가 그렇게 분류되었는지 쉽게 이해하고 설명할 수 있습니다.
약점 (과적합): 훈련 데이터에 너무 잘 맞춰져서(과적합) 새로운 데이터에 대한 예측 성능이 떨어지는 경우가 많습니다. 이를 해결하기 위해 트리의 깊이를 제한하는(가지치기) 기법을 사용하기도 합니다.

핵심 차이점: 왜 스케일링이 필요 없을까?

k-NN 알고리즘과 달리, 의사결정트리는 데이터 스케일링이 필요하지 않습니다. 그 이유는 데이터를 분류하는 방식에 있습니다. 의사결정트리는 각 특징에 대해 개별적인 '질문'을 던지고 그 기준값(임계치)을 바탕으로 데이터를 나눌 뿐, 특징들의 단위를 섞어서 '거리'를 계산하지 않습니다. 각 질문이 독립적으로 작동하기 때문에, 특징들의 수치 범위나 단위가 달라도 판단에 영향을 미치지 않는 것입니다.

앙상블 학습: 숲을 이루는 똑똑한 나무들

하나의 의사결정트리가 가진 과적합과 불안정성의 한계를 극복하기 위해 등장한 것이 바로 앙상블 학습(Ensemble Learning)입니다. 앙상블 학습은 마치 '집단 지성'처럼, 여러 개의 모델(약한 학습기)의 예측 결과를 종합하여 더 정확하고 안정적인 예측을 도출하는 방법입니다.

랜덤 포레스트 (Random Forest)

랜덤 포레스트(Random Forest)는 앙상블 학습의 가장 대표적인 알고리즘으로, 여러 개의 의사결정트리를 무작위로 생성하여 '숲'을 이룹니다. 이 숲의 '집단 투표'를 통해 최종 결론을 내립니다.

랜덤 포레스트의 두 가지 핵심 기술

배깅 (Bagging - Bootstrap Aggregating): 원본 데이터에서 무작위로 중복을 허용하여 데이터를 추출해 여러 개의 새로운 데이터셋(부트스트랩 샘플)을 만듭니다. 이렇게 만들어진 각기 다른 데이터셋으로 독립적인 의사결정트리를 훈련시켜 나무의 다양성을 확보합니다.
랜덤 노드 최적화 (Randomized Node Optimization): 각 나무의 가지를 칠 때, 전체 특징 중 일부만 무작위로 선택하여 최적의 질문을 찾습니다. 이는 각 나무가 서로 너무 비슷해지는 것을 방지하고, 과적합 문제를 줄여 모델의 일반화 성능을 향상시킵니다.

이처럼 여러 '약한' 나무들을 지능적으로 결합하여 하나의 '강력한' 숲을 만드는 방식은 단일 모델의 한계를 극복하고 예측 성능을 크게 향상시키는 효과적인 방법입니다.