7단원: 비지도 학습

'정답' 없는 데이터 속에서 숨겨진 보물을 찾는 예술, 비지도 학습의 세계를 탐험합니다.
기계가 스스로 데이터의 구조를 파악하는 지혜를 배워봅시다.

🕵️‍♀️ 비지도 학습이란? - 정답이 없어도 괜찮아!

비지도 학습은 '정답(Label)'이 없는 데이터를 사용하여, 데이터 자체의 숨겨진 구조나 패턴을 발견하는 학습 방법입니다. 마치 탐정처럼 스스로 단서를 찾아 데이터를 정리합니다.

기준 👨‍🏫 지도 학습 (Supervised) 🕵️‍♀️ 비지도 학습 (Unsupervised)
입력 데이터 입력(X) + 정답(Y) 입력(X)만 주어짐
목표 새로운 X에 대한 Y를 예측 데이터 X의 숨겨진 구조 발견
비유 정답지를 보고 문제 풀이법 암기하기 문제집만 보고 스스로 유형 터득하기

🤝 군집화 (Clustering) - 비슷한 것끼리 뭉쳐!

군집화는 데이터들 사이의 '유사성'을 기반으로 비슷한 데이터들을 하나의 '군집(Cluster)'으로 묶어주는 과정입니다. k-means는 가장 대표적인 군집화 알고리즘입니다.

k-means 알고리즘의 5단계 작동 원리

1

중심점 배치: 찾고자 하는 군집의 개수(k)만큼 임의의 '중심점(Centroid)'을 찍습니다.

2

데이터 할당: 모든 데이터들을 현재 가장 가까운 중심점으로 할당하여 초기 군집을 형성합니다.

3

중심점 업데이트: 각 군집에 속한 데이터들의 평균 위치를 계산하여 중심점을 새로 설정합니다.

4

군집 재형성: 업데이트된 중심점을 기준으로 다시 모든 데이터를 할당합니다.

5

반복: 중심점의 위치가 더 이상 변하지 않을 때까지 2~4단계를 반복합니다.

최적의 k값 찾기: 엘보우 메소드

이너셔(Inertia)는 군집의 응집도를 나타내는 지표로, 값이 작을수록 좋습니다. 엘보우 메소드는 k값을 늘려가며 이너셔 값의 변화를 보고, 그래프가 팔꿈치처럼 꺾이는 최적의 k를 찾습니다.

핵심 요약: k-means는 '데이터 할당'과 '중심점 업데이트'를 반복하여 데이터의 숨겨진 그룹을 찾습니다. 최적의 그룹 수(k)는 엘보우 메소드를 통해 찾을 수 있습니다.

↔️ 차원 축소 - 복잡한 세상을 간결하게!

차원 축소는 수많은 특징(고차원)을 가진 데이터를 핵심 정보를 최대한 보존하면서 더 적은 수의 특징(저차원)으로 줄이는 기술입니다.

'차원의 저주'를 피하기 위해!

데이터의 특징(차원)이 너무 많아지면 '차원의 저주'가 발생합니다. 데이터 공간이 너무 커져 데이터가 희소해지고, 모델 학습이 어려워지며, 과적합 위험이 증가합니다.

PCA: 분산을 최대로 보존하는 축을 찾아라!

PCA는 데이터의 '분산(Variance)'을 가장 잘 설명하는 새로운 축(주성분)을 찾아 그 축으로 데이터를 투영시킵니다. 분산이 크다는 것은 데이터 간의 차이점이 명확하다는 의미이므로, 분산이 가장 큰 축을 찾아야 핵심 정보를 최대한 보존할 수 있습니다.

4차원의 붓꽃 데이터를 2개의 주성분으로 축소했음에도, 품종별 군집이 명확하게 유지되는 것을 볼 수 있습니다. (정보 보존율 약 97%)

핵심 요약: 차원 축소(PCA)는 '차원의 저주'를 피하고, 데이터의 핵심 정보(분산)를 최대한 보존하면서 계산 효율성과 시각화 능력을 높이는 강력한 기술입니다.