1단원: 머신러닝의 반석

모든 위대한 여정의 시작, 가장 단단한 첫걸음을 내딛습니다.
머신러닝의 기본 원리와 핵심 개념을 시각적으로 탐험해 봅시다.

🧭 패러다임의 전환: 기계는 어떻게 '스스로' 학습할까?

머신러닝은 단순히 규칙을 '실행'하는 것을 넘어, 데이터 속에서 '규칙'을 스스로 '발견'하는 혁명적인 접근 방식입니다.

📜 전통적 프로그래밍

입력: 데이터 + 사람이 만든 규칙
처리: 컴퓨터가 규칙대로 계산
출력: 정해진 답

비유: "김치찌개 레시피를 줄 테니, 그대로 요리해!"

🤖 머신러닝

입력: 데이터 + 정답
처리: 컴퓨터가 관계를 학습
출력: 스스로 찾은 규칙

비유: "맛있는 김치찌개 100개를 줄 테니, 최고의 레시피를 찾아내!"

핵심 요약: 머신러닝은 사람이 모든 규칙을 정의하기 어려운 복잡하고 역동적인 문제 해결에 강력합니다. 데이터 속에서 스스로 패턴과 규칙을 발견하는 것이 핵심입니다.

👑 데이터가 왕인 이유: Garbage In, Garbage Out

아무리 뛰어난 알고리즘도 '상한 재료'로는 '최고의 요리'를 만들 수 없습니다. 모델의 성능은 전적으로 데이터의 질과 양에 달려있습니다.

🗑️

나쁜 데이터 (Garbage In)

불완전하거나 편향된 데이터

➡️
📉

나쁜 결과 (Garbage Out)

저하된 예측 성능의 모델

핵심 요약: "Garbage In, Garbage Out"을 기억하세요! 머신러닝 성공의 핵심은 좋은 데이터를 확보하고 관리하는 것입니다. 데이터 수집, 정제, 준비 과정에 공을 들여야 합니다.

🧭 탐험가의 지도: 지도 학습 (Supervised Learning)

'선생님이 정답을 알려주는 학습법'으로, **'정답(Label)'**이 붙어있는 데이터를 활용합니다. 지도 학습은 크게 '분류'와 '회귀' 두 가지 임무로 나뉩니다.

🔵 분류 (Classification)

🐧

"우리는 어떤 무리일까?"

주어진 데이터가 어떤 정해진 **'종류'** 또는 **'그룹'**에 속하는지 맞추는 문제입니다.

  • 예시: 펭귄 종류 맞히기, 스팸 메일 분류
  • 결과: '아델리 펭귄', '젠투 펭귄' 등 범주형 값
  • 성능 지표: 정확도(Accuracy)

📈 회귀 (Regression)

🏠

"얼마나 될까?"

주어진 데이터의 특징을 보고 특정 **'숫자'** 값을 예측하는 문제입니다.

  • 예시: 영화 관객 수 예측, 주택 가격 예측
  • 결과: '150만명', '3.5억' 등 연속적인 수치 값
  • 성능 지표: 오차(Error), RMSE
핵심 요약: 지도 학습은 정답의 형태(범주형 vs. 수치형)에 따라 '분류'와 '회귀'로 나뉩니다. 해결하고자 하는 문제의 목표에 맞는 올바른 유형을 선택하는 것이 매우 중요합니다.