3단원 핵심 개념 탐사: 알고리즘과 평가

📈 숫자를 예측하는 마법: 회귀 분석

회귀는 '얼마나 될까?'라는 질문에 답하며, 데이터 속에서 패턴을 찾아 연속적인 숫자 값을 예측합니다.

선형 회귀의 목표는 데이터들을 가장 잘 대표하는 '직선(회귀선)'을 찾는 것입니다. '최소 제곱법'을 사용하여 실제값과 예측값 사이의 오차(Error) 제곱 합이 최소가 되는 직선을 찾습니다.

오차를 최소화하는 최적의 가중치(w)와 편향(b)을 찾기 위해, 경사 하강법은 '산에서 가장 낮은 계곡으로 내려오는' 것처럼 손실 함수(MSE)의 기울기를 따라 점진적으로 최적점을 찾아갑니다.

이름과 달리 '이진 분류' 문제에 사용됩니다. 선형 함수의 결과를 시그모이드(Sigmoid) 함수에 통과시켜 0과 1 사이의 '확률' 값으로 변환함으로써, 직선으로는 해결할 수 없던 분류 문제를 해결합니다.

핵심 요약: 선형 회귀는 연속적인 숫자를 예측하고, 로지스틱 회귀는 시그모이드 함수를 통해 결과를 확률로 변환하여 두 개의 범주 중 하나를 예측하는 분류 모델입니다.

'정답'이 없는 데이터 속에서 기계가 스스로 구조와 패턴을 발견하는 학습 방법입니다.

k-means 알고리즘은 데이터를 '유사성'에 기반하여 k개의 군집(Cluster)으로 묶어줍니다. '데이터 할당'과 '중심점 업데이트'를 반복하여 최적의 군집을 찾습니다.

최적의 군집 수(k)는 이너셔(Inertia) 그래프가 팔꿈치처럼 꺾이는 지점을 찾는 엘보우 메소드로 결정할 수 있습니다.

'차원의 저주'를 피하고 데이터를 효율적으로 다루기 위해, PCA는 데이터의 '분산'을 최대로 보존하는 새로운 축(주성분)을 찾아 고차원 데이터를 저차원으로 압축합니다.

4차원의 붓꽃 데이터를 2개의 주성분으로 축소했음에도, 품종별 군집이 명확하게 유지되는 것을 볼 수 있습니다. (정보 보존율 약 97%)

핵심 요약: 군집화(k-means)는 데이터의 숨겨진 그룹을 찾고, 차원 축소(PCA)는 데이터의 복잡성을 줄여 계산 효율성과 시각화를 돕는 강력한 비지도 학습 도구입니다.

만든 모델의 진짜 가치를 증명하고, 복잡한 분류 문제를 해결하는 정교한 기술을 탐험합니다.

데이터 불균형 상황에서 '정확도'는 모델의 성능을 오해하게 만들 수 있습니다. **오차 행렬(Confusion Matrix)**은 모델이 어떤 종류의 실수를 하는지 상세히 보여주어, 더 깊이 있는 평가를 가능하게 합니다.

예측: Positive

예측: Negative

실제

TP정답 (암→암)

FN (2종 오류)놓침 (암→정상)

FP (1종 오류)오탐 (정상→암)

TN정답 (정상→정상)

SVM은 두 클래스 사이의 '마진(Margin)'을 최대로 만드는 가장 안정적인 결정 경계를 찾습니다. 경계선에 가장 가까이 위치하여 그 위치를 결정하는 데이터 포인트를 '서포트 벡터'라고 부릅니다.

직선으로 나눌 수 없는 복잡한 데이터는 **커널 기법**을 사용해 고차원으로 매핑하여 분리합니다.

핵심 요약: 단순 정확도를 넘어 정밀도, 재현율, F1 스코어로 모델을 다각도로 평가해야 합니다. SVM은 마진 최대화와 커널 기법을 통해 복잡한 분류 문제에서 강력한 성능을 발휘합니다.