뭔가 흐름이 끊겼지만, 포기하기는 싫어서 달려보련다!
06-1 군집 알고리즘 (Clustering)
- 비지도 학습
- 이미지(gray, 2차원) 데이터 다루기
06-2 k-평균 (KMeans)
- 하이퍼파라미터 (k)
- 최적의 k 찾기 : inertia
06-3 주성분 분석 (PCA)
- 차원축소
- PCA
- 설명된 분산 (explained variance ratio)
[ 기본 숙제 : k-평균 알고리즘 작동 방식 ]
- 비지도 학습(Unsupervised Learning)의 가장 대표적인 사례가 바로 군집화(Clustering)이다.
- 군집화(Clustering)의 가장 대표적인 알고리즘이 바로 K-평균(K-Means) 알고리즘이다.
- centroid(중심점)을 기준으로 데이터들과의 거리를 최소화하는 것을 목표로 한다.
- 거리를 계산하는 여러 방법이 있으나 보통 유클리드 거리(Euclidian Distance) 방식을 사용한다.
- 이를 이용하여 K-Means 알고리즘은 다음과 같은 방식으로 최적화 한다.
[ 추가 숙제 : Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기 ]
1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇 개일까요?
→ 주성분 분석(PCA)라는 것은 차원 축소 방법 중 하나로써, 원본 데이터의 특성 개수와 같거나 적을 수 있다.
그러므로 정답은 ②번이긴 할텐데.... 사실 ①번이라고 해도 틀렸다고 하기 힘들지 않을까 한다.
"이 데이터셋에서 찾을 수 있는 최대 주성분 개수는 몇 개일까요?"라고 하는 것이 맞을 것 같다.
2. 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100)입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?
→ 10개의 주성분을 찾아 변환했다고 했으니 당연하게도 ①번이 정답이다.
3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?
→ 분산이 큰 것부터 정렬되므로 ①번 첫 번째 주성분의 분산이 가장 크다.
그냥 문제 풀기만 하니까 아쉬워서 직접 코드로 증명을 해봤다.
여기까지~!!
'Books' 카테고리의 다른 글
[혼공머신] 6주차 - CH.07 딥러닝을 시작합니다 (0) | 2024.08.25 |
---|---|
[혼공머신] 4주차 - CH05. 트리 알고리즘 (0) | 2024.07.30 |
[혼공머신] 3주차 - CH04. 다양한 분류 알고리즘 (0) | 2024.07.22 |
[혼공머신] 2주차 - CH03. 회귀 알고리즘과 모델 규제 (0) | 2024.07.14 |
[혼공머신] 1주차 - CH02. 데이터 다루기 (0) | 2024.07.07 |