7단원: 비지도 학습

'정답' 없는 데이터 속에서 숨겨진 보물을 찾는 예술, 비지도 학습의 세계를 탐험합니다. 기계가 스스로 데이터의 구조를 파악하여 비슷한 것끼리 묶어주고(군집화), 복잡한 세상을 간결하게 요약하는(차원 축소) 지혜를 배워봅니다.

비지도 학습이란? - 정답이 없어도 괜찮아!

지금까지 우리는 '정답'이 있는 데이터로 학습하는 지도 학습을 배웠습니다. 이제는 인공지능이 탐정처럼, '정답이 없는 데이터' 속에서 숨겨진 패턴과 구조를 스스로 찾아내는 비지도 학습(Unsupervised Learning)의 세계로 들어갈 시간입니다.

비유: 블록으로 혼자 놀기!

마치 아이에게 수많은 블록을 주고 "네 마음대로 정리해 봐!"라고 하는 것과 같습니다. 아이는 블록의 색깔, 모양, 크기 등 스스로 기준을 찾아 그룹을 만들 것입니다. 비지도 학습이 바로 이처럼 스스로 데이터를 탐색하고 정리하는 방식입니다.

실제 세상의 데이터는 '정답'이 없는 경우가 훨씬 많습니다. 비지도 학습은 이러한 방대한 데이터를 효과적으로 탐색하고, 숨겨진 의미 있는 정보를 찾아내는 데 필수적인 기술입니다.

군집화 (Clustering) - 비슷한 것끼리 뭉쳐!

군집화(Clustering)는 비지도 학습의 대표적인 기술로, 데이터들 사이의 '유사성'을 기반으로 하여 비슷한 데이터들을 하나의 '군집(Cluster)'으로 묶어주는 과정입니다.

k-means 알고리즘: 군집화의 왕!

k-means는 가장 널리 사용되고 직관적인 군집화 알고리즘입니다. 그 원리는 다음과 같은 단계를 반복하여 최적의 군집을 찾아냅니다.

STEP 1 (중심점 배치): 찾고자 하는 군집의 개수(k)만큼 임의의 '중심점(Centroid)'을 찍습니다.
STEP 2 (데이터 할당): 모든 데이터들을 현재 가장 가까운 중심점으로 할당하여 초기 군집을 형성합니다.
STEP 3 (중심점 업데이트): 각 군집에 할당된 데이터들의 평균 위치를 계산하여 새로운 중심점을 설정합니다.
STEP 4 (군집 재형성): 업데이트된 중심점을 기준으로 다시 모든 데이터를 할당합니다.
STEP 5 (반복): 중심점의 위치가 더 이상 변하지 않을 때까지 STEP 2~4를 반복합니다.

최적의 k값 찾기: 엘보우 메소드

최적의 군집 개수 'k'는 어떻게 찾을까요? 엘보우(Elbow) 메소드가 널리 사용됩니다.

이너셔(Inertia): 각 군집의 중심점과 데이터들 사이의 거리 제곱 합으로, 군집의 응집도를 나타냅니다. 값이 작을수록 좋습니다.
엘보우 지점 찾기: k값을 1부터 늘려가며 이너셔 값의 변화를 그래프로 그립니다. 이너셔 값이 급격히 감소하다가 완만해지는 지점, 즉 '팔꿈치(Elbow)'처럼 꺾이는 지점이 최적의 k값으로 간주됩니다.

차원 축소 - 복잡한 세상을 간결하게!

차원 축소(Dimensionality Reduction)는 수많은 특징(고차원)을 가진 데이터를 핵심 정보를 최대한 보존하면서 더 적은 수의 특징(저차원)으로 줄이는 기술입니다.

'차원의 저주'를 피하기 위해!

데이터의 특징(차원)이 너무 많아지면 '차원의 저주(Curse of Dimensionality)'라는 문제가 발생합니다. 데이터 공간이 너무 커져 데이터가 희소해지고, 모델 학습이 어려워지며, 과적합 위험이 증가합니다. 차원 축소는 이러한 문제를 해결하기 위한 필수 기술입니다.

PCA (주성분 분석): 분산을 최대로 보존하는 축을 찾아라!

PCA(Principal Component Analysis)는 차원 축소의 가장 대표적인 알고리즘입니다. PCA의 핵심 원리는 데이터의 '분산(Variance)'을 가장 잘 설명하는 새로운 '축(주성분, Principal Component)'을 찾아 그 축으로 데이터를 투영시키는 것입니다.

분산의 중요성: 데이터의 분산이 크다는 것은 데이터 간의 차이점이 명확하다는 의미입니다. 분산이 가장 큰 축을 찾아야 데이터의 핵심 정보를 최대한 보존할 수 있습니다.
주성분 선택: 첫 번째 주성분은 분산을 가장 크게 만드는 축을, 두 번째 주성분은 첫 번째와 직교(90도)하면서 남은 분산을 가장 크게 만드는 축을 찾는 식으로 진행됩니다.

붓꽃 데이터 실습에서, 4차원 데이터를 단 2개의 주성분만으로 축소했음에도 원본 데이터 정보의 97% 이상을 보존할 수 있었습니다. 이는 PCA가 데이터의 복잡성은 줄이면서 핵심 정보는 효과적으로 보존함을 보여줍니다.