$\color{#3B88C3}\rule{675px}{2px}$K-평균 알고리즘 작동 방식 설명하기
k-평균(k-means)군집 알고리즘의
평균값 = 클러스터 중심(cluster center) = 센트로이드(centroid)
k-평균 알고리즘 작동 방식
① 무작위로 k개의 클러스터 중심을 정한다
② 각 샘플에서 가장 가까운 클러스터 중심을 해당 클러스터의 샘플로 지정한다
③ 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경한다
④ 클러스터 중심에 변화가 없을 때까지 ②부터 반복
*** 비지도 학습 이기 때문에 fit() 사용 x ***
$\color{#3B88C3}\rule{675px}{2px}$06-3 확인 문제 풀고, 풀이 과정 정리하기
https://colab.research.google.com/drive/1zt8o4E-HPKh9Zo-tXLXeIyWZUG2ZGpz3?usp=sharing
확인문제
특성이 20개인 대량의 데이터셋이 있다. 이 데이터셋에서 찾을 수 있는 주성분의 개수는?
② 20개
→ 주성분 벡터의 원소 개수는 원본 데이터셋의 특성 개수와 같음
샘플개수가 1000개이고 특성개수는 100개인 데이터셋이 있다. ( 데이터셋의 크기는 (1000,100)), 이 데이터셋을 사이킷럿읜 PCA클래스로 10개의 주성분으로 변환했을 때, 변환된 데이터셋의 크기는?
① (1000,10)
→ 10개의 주성분=10개의 특성, 10개의 특성을 가진 1000개의 샘플이므로 변환된 데이터셋은 (1000,10)의 크기
2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째?
① 첫 번째 주성분
→ 원본 데이터의 분산이 큰 방향으로 데이터를 변환하고 설명된 분산은 각 주성분이 원본의 데이터를 잘 나타내는 비율을 기록하므로 첫 번재 주성분의 분산이 가장 크다.