3단원: 핵심 알고리즘과 평가

숫자를 예측하는 회귀, 숨겨진 패턴을 찾는 비지도 학습,
그리고 모델의 진짜 가치를 증명하는 평가의 기술을 탐험합니다.

📈 숫자를 예측하는 마법: 회귀 분석

회귀는 '얼마나 될까?'라는 질문에 답하며, 데이터 속에서 패턴을 찾아 연속적인 숫자 값을 예측합니다.

선형 회귀: 데이터를 가로지르는 최적의 직선

선형 회귀의 목표는 데이터들을 가장 잘 대표하는 '직선(회귀선)'을 찾는 것입니다. '최소 제곱법'을 사용하여 실제값과 예측값 사이의 오차(Error) 제곱 합이 최소가 되는 직선을 찾습니다.

경사 하강법: 최적의 해를 찾아가는 여정

오차를 최소화하는 최적의 가중치(w)와 편향(b)을 찾기 위해, 경사 하강법은 '산에서 가장 낮은 계곡으로 내려오는' 것처럼 손실 함수(MSE)의 기울기를 따라 점진적으로 최적점을 찾아갑니다.

로지스틱 회귀: 분류를 위한 S자 곡선의 변신

이름과 달리 '이진 분류' 문제에 사용됩니다. 선형 함수의 결과를 시그모이드(Sigmoid) 함수에 통과시켜 0과 1 사이의 '확률' 값으로 변환함으로써, 직선으로는 해결할 수 없던 분류 문제를 해결합니다.

핵심 요약: 선형 회귀는 연속적인 숫자를 예측하고, 로지스틱 회귀는 시그모이드 함수를 통해 결과를 확률로 변환하여 두 개의 범주 중 하나를 예측하는 분류 모델입니다.

🎨 숨겨진 패턴을 찾는 예술: 비지도 학습

'정답'이 없는 데이터 속에서 기계가 스스로 구조와 패턴을 발견하는 학습 방법입니다.

군집화 (k-means): 비슷한 것끼리 뭉쳐!

k-means 알고리즘은 데이터를 '유사성'에 기반하여 k개의 군집(Cluster)으로 묶어줍니다. '데이터 할당'과 '중심점 업데이트'를 반복하여 최적의 군집을 찾습니다.

최적의 군집 수(k)는 이너셔(Inertia) 그래프가 팔꿈치처럼 꺾이는 지점을 찾는 엘보우 메소드로 결정할 수 있습니다.

차원 축소 (PCA): 복잡한 세상을 간결하게!

'차원의 저주'를 피하고 데이터를 효율적으로 다루기 위해, PCA는 데이터의 '분산'을 최대로 보존하는 새로운 축(주성분)을 찾아 고차원 데이터를 저차원으로 압축합니다.

4차원의 붓꽃 데이터를 2개의 주성분으로 축소했음에도, 품종별 군집이 명확하게 유지되는 것을 볼 수 있습니다. (정보 보존율 약 97%)

핵심 요약: 군집화(k-means)는 데이터의 숨겨진 그룹을 찾고, 차원 축소(PCA)는 데이터의 복잡성을 줄여 계산 효율성과 시각화를 돕는 강력한 비지도 학습 도구입니다.

⚖️ 모델 평가와 최적의 경계선(SVM)

만든 모델의 진짜 가치를 증명하고, 복잡한 분류 문제를 해결하는 정교한 기술을 탐험합니다.

정확도의 함정과 오차 행렬

데이터 불균형 상황에서 '정확도'는 모델의 성능을 오해하게 만들 수 있습니다. **오차 행렬(Confusion Matrix)**은 모델이 어떤 종류의 실수를 하는지 상세히 보여주어, 더 깊이 있는 평가를 가능하게 합니다.

예측: Positive
예측: Negative
실제
TP정답 (암→암)
FN (2종 오류)놓침 (암→정상)
FP (1종 오류)오탐 (정상→암)
TN정답 (정상→정상)
  • 정밀도(Precision): FP가 치명적일 때 중요 (예: 스팸 필터)
  • 재현율(Recall): FN이 치명적일 때 중요 (예: 암 진단)

서포트 벡터 머신 (SVM): 최적의 경계선을 찾아서

SVM은 두 클래스 사이의 '마진(Margin)'을 최대로 만드는 가장 안정적인 결정 경계를 찾습니다. 경계선에 가장 가까이 위치하여 그 위치를 결정하는 데이터 포인트를 '서포트 벡터'라고 부릅니다.

직선으로 나눌 수 없는 복잡한 데이터는 **커널 기법**을 사용해 고차원으로 매핑하여 분리합니다.

핵심 요약: 단순 정확도를 넘어 정밀도, 재현율, F1 스코어로 모델을 다각도로 평가해야 합니다. SVM은 마진 최대화와 커널 기법을 통해 복잡한 분류 문제에서 강력한 성능을 발휘합니다.