5주차 기본 숙제

$\color{#3B88C3}\rule{675px}{2px}$K-평균 알고리즘 작동 방식 설명하기

$\color{#3B88C3}\rule{675px}{2px}$06-3 확인 문제 풀고, 풀이 과정 정리하기

확인문제

특성이 20개인 대량의 데이터셋이 있다. 이 데이터셋에서 찾을 수 있는 주성분의 개수는?

② 20개

→ 주성분 벡터의 원소 개수는 원본 데이터셋의 특성 개수와 같음
샘플개수가 1000개이고 특성개수는 100개인 데이터셋이 있다. ( 데이터셋의 크기는 (1000,100)), 이 데이터셋을 사이킷럿읜 PCA클래스로 10개의 주성분으로 변환했을 때, 변환된 데이터셋의 크기는?

① (1000,10)

→ 10개의 주성분=10개의 특성, 10개의 특성을 가진 1000개의 샘플이므로 변환된 데이터셋은 (1000,10)의 크기
2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째?

① 첫 번째 주성분

→ 원본 데이터의 분산이 큰 방향으로 데이터를 변환하고 설명된 분산은 각 주성분이 원본의 데이터를 잘 나타내는 비율을 기록하므로 첫 번재 주성분의 분산이 가장 크다.