⚠️ 정확도만으로는 부족한 이유: '정확도의 함정'
정확도는 가장 직관적인 지표지만, **데이터 불균형(Data Imbalance)** 상황에서는 모델의 치명적인 결함을 숨길 수 있습니다.
비유: 암 진단 모델의 함정
1,000명 중 10명만 암 환자(Positive)인 데이터가 있을 때,
만약 모델이 **모든 사람을 '정상(Negative)'이라고만 예측**한다면?
정확도 = (실제 정상 990명 예측 성공) / 1000명 = 99%
하지만, 실제 암 환자 10명을 모두 놓쳤으므로 (재현율 0%) 사실상 쓸모없는 모델입니다.
🔬 예측 결과 해부하기: 오차 행렬 (Confusion Matrix)
오차 행렬은 이진 분류 모델의 예측 결과를 실제 결과와 교차하여, 모델이 얼마나 '혼동'하고 있는지 상세하게 보여주는 표입니다.
(암)
(정상)
(암)
(정상)
TP (True Positive): 진짜 양성을 양성으로 올바르게 예측.
TN (True Negative): 진짜 음성을 음성으로 올바르게 예측.
FP (False Positive): 가짜 양성. 음성을 양성으로 잘못 예측 (오탐).
FN (False Negative): 가짜 음성. 양성을 음성으로 잘못 예측 (미탐).
🎯 핵심 평가지표: 문제에 따라 다르게!
오차 행렬을 통해, 우리는 문제 상황에 맞는 핵심 지표들로 모델의 성능을 더 세밀하게 평가할 수 있습니다.
정밀도 (Precision)
TP / (TP + FP)
모델의 긍정 예측이 얼마나 정확한가?
중요할 때: FP가 치명적일 때 (예: 스팸 필터)
재현율 (Recall)
TP / (TP + FN)
실제 긍정 케이스를 얼마나 잘 찾아내는가?
중요할 때: FN이 치명적일 때 (예: 암 진단)
F1 스코어
정밀도와 재현율의 조화 평균
두 지표의 균형이 중요할 때 사용
중요할 때: 데이터 불균형이 심할 때
➖ 서포트 벡터 머신 (SVM): 최적의 경계선 찾기
SVM은 두 클래스 사이에 '가장 넓은 길(마진)'을 만들어, 새로운 데이터에 대해서도 안정적으로 분류하는 것을 목표로 합니다.
🪄 커널 기법: 비선형 분류의 마법
직선 하나로 나눌 수 없는 복잡한 데이터도, 커널 기법을 사용하면 마법처럼 해결할 수 있습니다.
Before: 2차원 평면
직선으로는 두 그룹(🔴, 🔵)을 나눌 수 없습니다.
After: 3차원으로 매핑
데이터를 더 높은 차원으로 보내면, 하나의 평면으로 깔끔하게 나눌 수 있습니다.
▲ 고차원 공간
▼ 저차원 공간