5단원 핵심 개념 탐사: 모델 평가와 SVM

⚠️ 정확도만으로는 부족한 이유: '정확도의 함정'

정확도는 가장 직관적인 지표지만, **데이터 불균형(Data Imbalance)** 상황에서는 모델의 치명적인 결함을 숨길 수 있습니다.

1,000명 중 10명만 암 환자(Positive)인 데이터가 있을 때,
만약 모델이 **모든 사람을 '정상(Negative)'이라고만 예측**한다면?

정확도 = (실제 정상 990명 예측 성공) / 1000명 = 99%

하지만, 실제 암 환자 10명을 모두 놓쳤으므로 (재현율 0%) 사실상 쓸모없는 모델입니다.

핵심 요약: 정확도는 데이터 불균형에 취약합니다. 모델의 예측 결과를 상세히 해부하는 **오차 행렬(Confusion Matrix)**과 그로부터 파생된 지표들을 함께 사용해야 합니다.

오차 행렬은 이진 분류 모델의 예측 결과를 실제 결과와 교차하여, 모델이 얼마나 '혼동'하고 있는지 상세하게 보여주는 표입니다.

예측: Positive
(암)

예측: Negative
(정상)

실제

Positive
(암)

TP암 → 암 (정답)

FN (2종 오류)암 → 정상 (치명적 실수)

Negative
(정상)

FP (1종 오류)정상 → 암 (실수)

TN정상 → 정상 (정답)

TP (True Positive): 진짜 양성을 양성으로 올바르게 예측.

TN (True Negative): 진짜 음성을 음성으로 올바르게 예측.

FP (False Positive): 가짜 양성. 음성을 양성으로 잘못 예측 (오탐).

FN (False Negative): 가짜 음성. 양성을 음성으로 잘못 예측 (미탐).

오차 행렬을 통해, 우리는 문제 상황에 맞는 핵심 지표들로 모델의 성능을 더 세밀하게 평가할 수 있습니다.

TP / (TP + FP)

모델의 긍정 예측이 얼마나 정확한가?

중요할 때: FP가 치명적일 때 (예: 스팸 필터)

TP / (TP + FN)

실제 긍정 케이스를 얼마나 잘 찾아내는가?

중요할 때: FN이 치명적일 때 (예: 암 진단)

정밀도와 재현율의 조화 평균

두 지표의 균형이 중요할 때 사용

중요할 때: 데이터 불균형이 심할 때

SVM은 두 클래스 사이에 '가장 넓은 길(마진)'을 만들어, 새로운 데이터에 대해서도 안정적으로 분류하는 것을 목표로 합니다.

핵심 요약: SVM은 마진(Margin)을 최대로 만드는 결정 경계(초평면)를 찾습니다. 이 경계는 경계선에 가장 가까운 서포트 벡터(Support Vectors)에 의해서만 결정되므로 과적합에 강합니다.

직선 하나로 나눌 수 없는 복잡한 데이터도, 커널 기법을 사용하면 마법처럼 해결할 수 있습니다.

직선으로는 두 그룹(🔴, 🔵)을 나눌 수 없습니다.

데이터를 더 높은 차원으로 보내면, 하나의 평면으로 깔끔하게 나눌 수 있습니다.

▲ 고차원 공간

▼ 저차원 공간

핵심 요약: 커널 기법은 비선형 데이터를 고차원 공간으로 매핑하여 선형 분리가 가능하도록 만드는 SVM의 강력한 기술입니다.