1단원: 머신러닝의 반석

모든 위대한 여정의 시작, 가장 단단한 첫걸음을 내딛습니다. 이 단원에서는 데이터라는 새로운 언어를 배우고, 기계가 어떻게 스스로 '생각'하게 되는지에 대한 혁명적인 패러다임의 전환을 이해하게 될 것입니다.

머신러닝이란 무엇인가?

기계는 어떻게 스스로 학습할까?

머신러닝(Machine Learning)은 복잡한 로봇이나 어려운 수학 공식을 넘어, 우리 생각보다 훨씬 더 가까이 있는 직관적인 원리로 작동합니다. 핵심은 "기계가 명시적인 프로그램 없이 데이터로부터 스스로 학습하여 특정 작업을 수행하는 능력"에 있습니다. 가장 중요한 부분은 바로 '스스로 학습'한다는 점입니다.

우리가 수많은 경험(데이터)을 통해 '강아지'와 '고양이'를 구분하는 규칙을 뇌 속에 자연스럽게 형성하는 것처럼, 기계도 수많은 데이터를 보고 배우면서 스스로 규칙을 찾아내고, 그 규칙을 바탕으로 미래를 예측하는 기술입니다.

수학적 관점의 머신러닝

수학적으로 머신러닝은 Y = f(X)라는 모델을 찾는 과정입니다.

X는 입력 변수 (예: 펭귄의 부리 길이, 몸무게 등 특징)
Y는 출력 변수 (예: 펭귄의 종류)
f는 기계가 수많은 (X, Y) 데이터 쌍을 학습하여 스스로 발견한, 데이터 간의 숨겨진 규칙 또는 패턴을 의미합니다.

즉, 머신러닝은 주어진 데이터 속에서 X와 Y 사이의 관계를 가장 잘 설명하는 함수 f를 찾아내는 과정이라고 할 수 있습니다.

전통적 프로그래밍 vs 머신러닝

머신러닝이 기존의 프로그래밍 방식과 근본적으로 다른 점은 바로 이 '스스로 규칙을 찾는' 능력에 있습니다. 이 차이점을 이해하는 것이 머신러닝의 가치를 깨닫는 첫걸음입니다.

📜 전통적 프로그래밍: 개발자가 컴퓨터에게 데이터와 함께 명확한 규칙(알고리즘)을 모두 알려줍니다. 마치 요리사에게 김치찌개 레시피를 하나부터 열까지 상세하게 알려주는 것과 같습니다. 컴퓨터는 이 규칙을 새로운 데이터에 적용하여 미리 정해진 답을 출력할 뿐입니다.
🤖 머신러닝: 컴퓨터에게 수많은 데이터와 그에 대한 정답을 함께 보여줍니다. 그러면 컴퓨터는 데이터와 정답 사이의 관계를 스스로 학습하여 "아하!" 하고 숨겨진 규칙을 찾아냅니다. 이는 스팸 메일 필터링처럼 규칙이 너무 많거나 끊임없이 변화하는 복잡하고 역동적인 문제를 해결하는 데 매우 강력합니다.

데이터가 왕인 이유

Garbage In, Garbage Out

"쓰레기 같은 데이터를 넣으면, 쓰레기 같은 결과가 나온다"는 뜻입니다. 머신러닝에서 기계가 스스로 규칙을 '발견'한다는 점은, 학습의 재료가 되는 데이터의 중요성을 극대화합니다. 머신러닝 모델의 성능은 전적으로 데이터의 양과 질에 달려 있습니다. 아무리 뛰어난 알고리즘을 사용하더라도, 데이터가 불완전하거나 편향되어 있다면 모델의 예측 성능은 크게 저하될 수밖에 없습니다.

지도 학습: 선생님이 정답을 알려주는 학습법

우리가 가장 먼저 배울 머신러닝의 기본적인 형태는 지도 학습(Supervised Learning)입니다. '지도'라는 말 그대로, 마치 선생님이 학생에게 정답을 알려주며 가르치듯이, 기계에게 '정답(Label)'이 붙어있는 데이터를 가지고 학습시키는 방법입니다. 기계는 이 '데이터-정답' 쌍을 통해 데이터 속에 숨겨진 규칙을 스스로 찾아내고, 이 규칙을 바탕으로 새로운 데이터의 정답을 예측하게 됩니다.

지도 학습의 두 가지 임무: 분류와 회귀

지도 학습은 예측하고자 하는 '정답의 형태'에 따라 크게 두 가지로 나뉩니다. 이 차이를 이해하는 것이 문제에 적합한 방법을 선택하는 데 중요합니다.

기준	🔵 분류 (Classification)	📈 회귀 (Regression)
출력 형태	범주형 (Category, Label)	수치형 (Numerical Value)
목표	데이터가 어떤 '종류'에 속하는지 맞추기	데이터에 대해 '얼마나' 될지 숫자 예측하기
대표 예시	펭귄 종류 분류, 스팸 메일 분류	영화 관객 수 예측, 주택 가격 예측
성능 지표	정확도 (Accuracy)	오차 (Error), RMSE