🕵️♀️ 비지도 학습이란? - 정답이 없어도 괜찮아!
비지도 학습은 '정답(Label)'이 없는 데이터를 사용하여, 데이터 자체의 숨겨진 구조나 패턴을 발견하는 학습 방법입니다. 마치 탐정처럼 스스로 단서를 찾아 데이터를 정리합니다.
| 기준 | 👨🏫 지도 학습 (Supervised) | 🕵️♀️ 비지도 학습 (Unsupervised) |
|---|---|---|
| 입력 데이터 | 입력(X) + 정답(Y) | 입력(X)만 주어짐 |
| 목표 | 새로운 X에 대한 Y를 예측 | 데이터 X의 숨겨진 구조 발견 |
| 비유 | 정답지를 보고 문제 풀이법 암기하기 | 문제집만 보고 스스로 유형 터득하기 |
🤝 군집화 (Clustering) - 비슷한 것끼리 뭉쳐!
군집화는 데이터들 사이의 '유사성'을 기반으로 비슷한 데이터들을 하나의 '군집(Cluster)'으로 묶어주는 과정입니다. k-means는 가장 대표적인 군집화 알고리즘입니다.
k-means 알고리즘의 5단계 작동 원리
중심점 배치: 찾고자 하는 군집의 개수(k)만큼 임의의 '중심점(Centroid)'을 찍습니다.
데이터 할당: 모든 데이터들을 현재 가장 가까운 중심점으로 할당하여 초기 군집을 형성합니다.
중심점 업데이트: 각 군집에 속한 데이터들의 평균 위치를 계산하여 중심점을 새로 설정합니다.
군집 재형성: 업데이트된 중심점을 기준으로 다시 모든 데이터를 할당합니다.
반복: 중심점의 위치가 더 이상 변하지 않을 때까지 2~4단계를 반복합니다.
최적의 k값 찾기: 엘보우 메소드
이너셔(Inertia)는 군집의 응집도를 나타내는 지표로, 값이 작을수록 좋습니다. 엘보우 메소드는 k값을 늘려가며 이너셔 값의 변화를 보고, 그래프가 팔꿈치처럼 꺾이는 최적의 k를 찾습니다.
↔️ 차원 축소 - 복잡한 세상을 간결하게!
차원 축소는 수많은 특징(고차원)을 가진 데이터를 핵심 정보를 최대한 보존하면서 더 적은 수의 특징(저차원)으로 줄이는 기술입니다.
'차원의 저주'를 피하기 위해!
데이터의 특징(차원)이 너무 많아지면 '차원의 저주'가 발생합니다. 데이터 공간이 너무 커져 데이터가 희소해지고, 모델 학습이 어려워지며, 과적합 위험이 증가합니다.
PCA: 분산을 최대로 보존하는 축을 찾아라!
PCA는 데이터의 '분산(Variance)'을 가장 잘 설명하는 새로운 축(주성분)을 찾아 그 축으로 데이터를 투영시킵니다. 분산이 크다는 것은 데이터 간의 차이점이 명확하다는 의미이므로, 분산이 가장 큰 축을 찾아야 핵심 정보를 최대한 보존할 수 있습니다.
4차원의 붓꽃 데이터를 2개의 주성분으로 축소했음에도, 품종별 군집이 명확하게 유지되는 것을 볼 수 있습니다. (정보 보존율 약 97%)