$\color{#3B88C3}\rule{675px}{2px}$K-평균 알고리즘 작동 방식 설명하기

06-2 k-평균

$\color{#3B88C3}\rule{675px}{2px}$06-3 확인 문제 풀고, 풀이 과정 정리하기

https://colab.research.google.com/drive/1zt8o4E-HPKh9Zo-tXLXeIyWZUG2ZGpz3?usp=sharing

확인문제

  1. 특성이 20개인 대량의 데이터셋이 있다. 이 데이터셋에서 찾을 수 있는 주성분의 개수는?

    ② 20개

    → 주성분 벡터의 원소 개수는 원본 데이터셋의 특성 개수와 같음

  2. 샘플개수가 1000개이고 특성개수는 100개인 데이터셋이 있다. ( 데이터셋의 크기는 (1000,100)), 이 데이터셋을 사이킷럿읜 PCA클래스로 10개의 주성분으로 변환했을 때, 변환된 데이터셋의 크기는?

    ① (1000,10)

    → 10개의 주성분=10개의 특성, 10개의 특성을 가진 1000개의 샘플이므로 변환된 데이터셋은 (1000,10)의 크기

  3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째?

    ① 첫 번째 주성분

    → 원본 데이터의 분산이 큰 방향으로 데이터를 변환하고 설명된 분산은 각 주성분이 원본의 데이터를 잘 나타내는 비율을 기록하므로 첫 번재 주성분의 분산이 가장 크다.