7단원 핵심 개념 탐사: 비지도 학습

🕵️‍♀️ 비지도 학습이란? - 정답이 없어도 괜찮아!

비지도 학습은 '정답(Label)'이 없는 데이터를 사용하여, 데이터 자체의 숨겨진 구조나 패턴을 발견하는 학습 방법입니다. 마치 탐정처럼 스스로 단서를 찾아 데이터를 정리합니다.

군집화는 데이터들 사이의 '유사성'을 기반으로 비슷한 데이터들을 하나의 '군집(Cluster)'으로 묶어주는 과정입니다. k-means는 가장 대표적인 군집화 알고리즘입니다.

1

중심점 배치: 찾고자 하는 군집의 개수(k)만큼 임의의 '중심점(Centroid)'을 찍습니다.

2

데이터 할당: 모든 데이터들을 현재 가장 가까운 중심점으로 할당하여 초기 군집을 형성합니다.

3

중심점 업데이트: 각 군집에 속한 데이터들의 평균 위치를 계산하여 중심점을 새로 설정합니다.

4

군집 재형성: 업데이트된 중심점을 기준으로 다시 모든 데이터를 할당합니다.

5

반복: 중심점의 위치가 더 이상 변하지 않을 때까지 2~4단계를 반복합니다.

이너셔(Inertia)는 군집의 응집도를 나타내는 지표로, 값이 작을수록 좋습니다. 엘보우 메소드는 k값을 늘려가며 이너셔 값의 변화를 보고, 그래프가 팔꿈치처럼 꺾이는 최적의 k를 찾습니다.

핵심 요약: k-means는 '데이터 할당'과 '중심점 업데이트'를 반복하여 데이터의 숨겨진 그룹을 찾습니다. 최적의 그룹 수(k)는 엘보우 메소드를 통해 찾을 수 있습니다.

차원 축소는 수많은 특징(고차원)을 가진 데이터를 핵심 정보를 최대한 보존하면서 더 적은 수의 특징(저차원)으로 줄이는 기술입니다.

데이터의 특징(차원)이 너무 많아지면 '차원의 저주'가 발생합니다. 데이터 공간이 너무 커져 데이터가 희소해지고, 모델 학습이 어려워지며, 과적합 위험이 증가합니다.

PCA는 데이터의 '분산(Variance)'을 가장 잘 설명하는 새로운 축(주성분)을 찾아 그 축으로 데이터를 투영시킵니다. 분산이 크다는 것은 데이터 간의 차이점이 명확하다는 의미이므로, 분산이 가장 큰 축을 찾아야 핵심 정보를 최대한 보존할 수 있습니다.

4차원의 붓꽃 데이터를 2개의 주성분으로 축소했음에도, 품종별 군집이 명확하게 유지되는 것을 볼 수 있습니다. (정보 보존율 약 97%)

핵심 요약: 차원 축소(PCA)는 '차원의 저주'를 피하고, 데이터의 핵심 정보(분산)를 최대한 보존하면서 계산 효율성과 시각화 능력을 높이는 강력한 기술입니다.