숫자를 예측하는 마법, 회귀(Regression)의 세계를 탐험합니다. 데이터를 가장 잘 설명하는 하나의 '직선'을 찾아내어 광고비에 따른 판매량을 예측하고, 나아가 분류 문제까지 해결하는 로지스틱 회귀의 놀라운 변신을 목격하게 될 것입니다.
회귀(Regression)는 한마디로 "얼마나 될까?"를 예측하는 문제입니다. "다음 주 아이스크림 판매량", "우리 집의 매매 가격", "내일의 기온"처럼 연속적이고 수치적인 값을 예측하는 지도 학습의 한 분야입니다.
기업의 마케팅 전략 수립, 정부의 정책 결정, 금융 시장 분석 등 미래의 '숫자'를 과학적으로 예측하는 것은 매우 중요하며, 회귀는 이를 가능하게 하는 핵심 도구입니다.
선형 회귀는 회귀 문제에서 가장 기본적이면서도 널리 사용되는 알고리즘입니다. 그 목표는 데이터들을 가장 잘 대표하는 '직선'을 찾아내는 것입니다.
ŷ = wx + bŷ: 예측값x: 독립 변수 (입력값, 예: 광고비)w: 가중치(Weight) 또는 기울기. x가 1단위 변할 때 ŷ가 얼마나 변하는지를 나타냅니다.b: 편향(Bias) 또는 절편. x가 0일 때 ŷ의 값입니다.오차를 최소화하는 최적의 가중치(w)와 편향(b)을 찾기 위해 사용되는 대표적인 방법이 경사 하강법(Gradient Descent)입니다. 이는 마치 안개 낀 산 정상에서 가장 낮은 계곡(오차가 최소가 되는 지점)으로 내려오기 위해, 현재 위치의 기울기를 보고 가장 가파른 내리막길을 따라 조금씩 이동하는 것과 같습니다.
로지스틱 회귀(Logistic Regression)는 이름에 '회귀'가 붙지만, 사실 이진 분류(Binary Classification) 문제에 사용되는 강력한 알고리즘입니다.
'합격(1)'과 '불합격(0)'을 분류하는 문제에 선형 회귀의 직선을 사용하면, 예측값이 1을 넘거나 음수가 되는 등 확률을 표현하기에 적합하지 않습니다. 로지스틱 회귀는 이러한 한계를 극복합니다.
로지스틱 회귀는 선형 회귀의 결과(wx+b)를 로지스틱 함수(시그모이드 함수)라는 특별한 S자 형태의 곡선에 통과시킵니다.
이 함수는 어떤 값을 입력받아도 출력값을 항상 0과 1 사이로 만들어주기 때문에, 특정 사건이 발생할 '확률'을 예측하는 데 매우 적합합니다. 예를 들어, 이 함수를 통해 나온 예측값이 0.8이라면 "80% 확률로 스팸 메일이다"라고 해석할 수 있습니다.