6단원: 회귀 분석

숫자를 예측하는 마법, 회귀(Regression)의 세계를 탐험합니다. 데이터를 가장 잘 설명하는 하나의 '직선'을 찾아내어 광고비에 따른 판매량을 예측하고, 나아가 분류 문제까지 해결하는 로지스틱 회귀의 놀라운 변신을 목격하게 될 것입니다.

회귀란 무엇인가?

회귀(Regression)는 한마디로 "얼마나 될까?"를 예측하는 문제입니다. "다음 주 아이스크림 판매량", "우리 집의 매매 가격", "내일의 기온"처럼 연속적이고 수치적인 값을 예측하는 지도 학습의 한 분야입니다.

기업의 마케팅 전략 수립, 정부의 정책 결정, 금융 시장 분석 등 미래의 '숫자'를 과학적으로 예측하는 것은 매우 중요하며, 회귀는 이를 가능하게 하는 핵심 도구입니다.

선형 회귀: 데이터를 가로지르는 최적의 직선

선형 회귀는 회귀 문제에서 가장 기본적이면서도 널리 사용되는 알고리즘입니다. 그 목표는 데이터들을 가장 잘 대표하는 '직선'을 찾아내는 것입니다.

1. 선형 회귀의 기본 원리

오차 (Error): 실제 데이터 값과 회귀선이 예측한 값 사이의 차이를 의미합니다.
최소 제곱법 (Ordinary Least Squares, OLS): 이 오차들의 제곱 합을 가장 작게 만드는, 즉 데이터를 가장 잘 설명하는 최적의 직선을 찾는 방법입니다.

선형 회귀 모델의 식: `ŷ = wx + b`

ŷ: 예측값
x: 독립 변수 (입력값, 예: 광고비)
w: 가중치(Weight) 또는 기울기. x가 1단위 변할 때 ŷ가 얼마나 변하는지를 나타냅니다.
b: 편향(Bias) 또는 절편. x가 0일 때 ŷ의 값입니다.

2. 경사 하강법: 최적의 가중치를 찾아가는 여정

오차를 최소화하는 최적의 가중치(w)와 편향(b)을 찾기 위해 사용되는 대표적인 방법이 경사 하강법(Gradient Descent)입니다. 이는 마치 안개 낀 산 정상에서 가장 낮은 계곡(오차가 최소가 되는 지점)으로 내려오기 위해, 현재 위치의 기울기를 보고 가장 가파른 내리막길을 따라 조금씩 이동하는 것과 같습니다.

로지스틱 회귀: 분류를 위한 회귀의 변신

로지스틱 회귀(Logistic Regression)는 이름에 '회귀'가 붙지만, 사실 이진 분류(Binary Classification) 문제에 사용되는 강력한 알고리즘입니다.

1. 왜 로지스틱 회귀가 필요한가?

'합격(1)'과 '불합격(0)'을 분류하는 문제에 선형 회귀의 직선을 사용하면, 예측값이 1을 넘거나 음수가 되는 등 확률을 표현하기에 적합하지 않습니다. 로지스틱 회귀는 이러한 한계를 극복합니다.

로지스틱 함수의 마법: 직선을 S자 곡선으로!

로지스틱 회귀는 선형 회귀의 결과(wx+b)를 로지스틱 함수(시그모이드 함수)라는 특별한 S자 형태의 곡선에 통과시킵니다.

이 함수는 어떤 값을 입력받아도 출력값을 항상 0과 1 사이로 만들어주기 때문에, 특정 사건이 발생할 '확률'을 예측하는 데 매우 적합합니다. 예를 들어, 이 함수를 통해 나온 예측값이 0.8이라면 "80% 확률로 스팸 메일이다"라고 해석할 수 있습니다.

2. 로지스틱 회귀의 활용

스팸 메일 분류: 메일 내용을 분석하여 스팸(1)인지 정상(0)인지 분류합니다.
질병 진단: 환자의 특징을 바탕으로 특정 질병의 발병 여부를 예측합니다.
신용도 평가: 고객 정보로 대출 상환 여부를 예측합니다.