'정답' 없는 데이터 속에서 숨겨진 보물을 찾는 예술, 비지도 학습의 세계를 탐험합니다. 기계가 스스로 데이터의 구조를 파악하여 비슷한 것끼리 묶어주고(군집화), 복잡한 세상을 간결하게 요약하는(차원 축소) 지혜를 배워봅니다.
지금까지 우리는 '정답'이 있는 데이터로 학습하는 지도 학습을 배웠습니다. 이제는 인공지능이 탐정처럼, '정답이 없는 데이터' 속에서 숨겨진 패턴과 구조를 스스로 찾아내는 비지도 학습(Unsupervised Learning)의 세계로 들어갈 시간입니다.
마치 아이에게 수많은 블록을 주고 "네 마음대로 정리해 봐!"라고 하는 것과 같습니다. 아이는 블록의 색깔, 모양, 크기 등 스스로 기준을 찾아 그룹을 만들 것입니다. 비지도 학습이 바로 이처럼 스스로 데이터를 탐색하고 정리하는 방식입니다.
실제 세상의 데이터는 '정답'이 없는 경우가 훨씬 많습니다. 비지도 학습은 이러한 방대한 데이터를 효과적으로 탐색하고, 숨겨진 의미 있는 정보를 찾아내는 데 필수적인 기술입니다.
군집화(Clustering)는 비지도 학습의 대표적인 기술로, 데이터들 사이의 '유사성'을 기반으로 하여 비슷한 데이터들을 하나의 '군집(Cluster)'으로 묶어주는 과정입니다.
k-means는 가장 널리 사용되고 직관적인 군집화 알고리즘입니다. 그 원리는 다음과 같은 단계를 반복하여 최적의 군집을 찾아냅니다.
최적의 군집 개수 'k'는 어떻게 찾을까요? 엘보우(Elbow) 메소드가 널리 사용됩니다.
차원 축소(Dimensionality Reduction)는 수많은 특징(고차원)을 가진 데이터를 핵심 정보를 최대한 보존하면서 더 적은 수의 특징(저차원)으로 줄이는 기술입니다.
데이터의 특징(차원)이 너무 많아지면 '차원의 저주(Curse of Dimensionality)'라는 문제가 발생합니다. 데이터 공간이 너무 커져 데이터가 희소해지고, 모델 학습이 어려워지며, 과적합 위험이 증가합니다. 차원 축소는 이러한 문제를 해결하기 위한 필수 기술입니다.
PCA(Principal Component Analysis)는 차원 축소의 가장 대표적인 알고리즘입니다. PCA의 핵심 원리는 데이터의 '분산(Variance)'을 가장 잘 설명하는 새로운 '축(주성분, Principal Component)'을 찾아 그 축으로 데이터를 투영시키는 것입니다.
붓꽃 데이터 실습에서, 4차원 데이터를 단 2개의 주성분만으로 축소했음에도 원본 데이터 정보의 97% 이상을 보존할 수 있었습니다. 이는 PCA가 데이터의 복잡성은 줄이면서 핵심 정보는 효과적으로 보존함을 보여줍니다.