5단원: 모델 평가와 SVM

모델의 진짜 가치를 증명하고, 복잡한 분류 문제를 해결하는 정교한 기술을 탐험합니다.
단순한 정확도를 넘어, 모델의 예측을 상세히 해부하는 능력을 길러봅시다.

⚠️ 정확도만으로는 부족한 이유: '정확도의 함정'

정확도는 가장 직관적인 지표지만, **데이터 불균형(Data Imbalance)** 상황에서는 모델의 치명적인 결함을 숨길 수 있습니다.

비유: 암 진단 모델의 함정

1,000명 중 10명만 암 환자(Positive)인 데이터가 있을 때,
만약 모델이 **모든 사람을 '정상(Negative)'이라고만 예측**한다면?

정확도 = (실제 정상 990명 예측 성공) / 1000명 = 99%

하지만, 실제 암 환자 10명을 모두 놓쳤으므로 (재현율 0%) 사실상 쓸모없는 모델입니다.

핵심 요약: 정확도는 데이터 불균형에 취약합니다. 모델의 예측 결과를 상세히 해부하는 **오차 행렬(Confusion Matrix)**과 그로부터 파생된 지표들을 함께 사용해야 합니다.

🔬 예측 결과 해부하기: 오차 행렬 (Confusion Matrix)

오차 행렬은 이진 분류 모델의 예측 결과를 실제 결과와 교차하여, 모델이 얼마나 '혼동'하고 있는지 상세하게 보여주는 표입니다.

예측: Positive
(암)
예측: Negative
(정상)
실제
Positive
(암)
TP암 → 암 (정답)
FN (2종 오류)암 → 정상 (치명적 실수)
Negative
(정상)
FP (1종 오류)정상 → 암 (실수)
TN정상 → 정상 (정답)

TP (True Positive): 진짜 양성을 양성으로 올바르게 예측.

TN (True Negative): 진짜 음성을 음성으로 올바르게 예측.

FP (False Positive): 가짜 양성. 음성을 양성으로 잘못 예측 (오탐).

FN (False Negative): 가짜 음성. 양성을 음성으로 잘못 예측 (미탐).

🎯 핵심 평가지표: 문제에 따라 다르게!

오차 행렬을 통해, 우리는 문제 상황에 맞는 핵심 지표들로 모델의 성능을 더 세밀하게 평가할 수 있습니다.

정밀도 (Precision)

TP / (TP + FP)

모델의 긍정 예측이 얼마나 정확한가?

중요할 때: FP가 치명적일 때 (예: 스팸 필터)

재현율 (Recall)

TP / (TP + FN)

실제 긍정 케이스를 얼마나 잘 찾아내는가?

중요할 때: FN이 치명적일 때 (예: 암 진단)

F1 스코어

정밀도와 재현율의 조화 평균

두 지표의 균형이 중요할 때 사용

중요할 때: 데이터 불균형이 심할 때

➖ 서포트 벡터 머신 (SVM): 최적의 경계선 찾기

SVM은 두 클래스 사이에 '가장 넓은 길(마진)'을 만들어, 새로운 데이터에 대해서도 안정적으로 분류하는 것을 목표로 합니다.

핵심 요약: SVM은 마진(Margin)을 최대로 만드는 결정 경계(초평면)를 찾습니다. 이 경계는 경계선에 가장 가까운 서포트 벡터(Support Vectors)에 의해서만 결정되므로 과적합에 강합니다.

🪄 커널 기법: 비선형 분류의 마법

직선 하나로 나눌 수 없는 복잡한 데이터도, 커널 기법을 사용하면 마법처럼 해결할 수 있습니다.

Before: 2차원 평면

직선으로는 두 그룹(🔴, 🔵)을 나눌 수 없습니다.

After: 3차원으로 매핑

데이터를 더 높은 차원으로 보내면, 하나의 평면으로 깔끔하게 나눌 수 있습니다.

▲ 고차원 공간

▼ 저차원 공간

핵심 요약: 커널 기법은 비선형 데이터를 고차원 공간으로 매핑하여 선형 분리가 가능하도록 만드는 SVM의 강력한 기술입니다.