Machine Learning의 민족
< 머신 러닝 - 비지도 학습>
댕구리댕댕구리
2022. 3. 22. 20:12
728x90
반응형
SMALL
< 비지도 학습 >
- 모델의 정답 없이 데이터만 제공된 상태에서 데이터의 패턴 파악
- 잠재 변수 : 내재된 패턴을 설명할 수 있는 변수를 추출해 만드는 모델
- 군집 분석 : 미리 정해진 분류 기준 없이 비슷한 특성의 모임을 생성
- 차원 감축 : 비지도 학습의 문제점을 해결, 데이터를 표현하는 특성의 수를 줄임
- 비지도 학습에서는 데이터 셋을 나눌 필요가 없음
- 차원의 저주 완화 : 데이터의 특성이 많을수록 필요한 데이터의 개수가 급격히 증가하는 현상
< 평가 지표 >
< 사용 기법 >
- K-means
- 주어진 개체들을 K개의 군집으로 분할하는 기법
- 가정 1 : 각 군집은 K개의 군집으로 분할
- 가정 2 : 한 개체는 한 군집에만 속함
- 한계점
- 몇 개의 군집으로 나눌지 미리 선정
- 중심점의 초기값에 따라 군집화 결과 변화
- 군집 대상이 볼록 집합이 아닌 경우 성능 저하 --> DBSCAN 알고리즘 적용
- 이상치에 민감 --> K-medians 알고리즘 적용
- 한 개체가 한 군집에만 속하는지 여부만 알고, 표현은 불가 --> fuzzy C-means 알고리즘 적용
- 주어진 개체들을 K개의 군집으로 분할하는 기법
- PCA
- 차원 축소 방법, 데이터를 최대한 보존하면서 데이터를 저차원으로 변환하는 수직인 부분 공간
- 차원의 저주나 변수 간의 선형 상관성이나 차원의 어려움을 해결하는 요소
- 한계점
- 변수의 단위에 따라 PCA의 결과가 변형(PCA 전에 변수의 표준화 진행)
- 선형 변환을 통해 주어진 변수끼리 비선형 관계에 있을 때 적절한 차원의 축소가 이뤄지기 어려움(Kernel PCA / 오토인코더 사용)
- PCA는 범주형 데이터에 사용 불가(MCA 사용)
- GMM
- 모수적 혼합 모델로 여러개의 가우시안 확률밀도함수를 조합해 주어진 데이터의 확률밀도함수를 추정하는 비지도 학습 군집분석
- 잠재 변수를 이용해 각 가우시안 분포의 평균과 분산을 EM알고리즘으로 추정해 데이터의 확률밀도함수로 모델링
- 보편 추정자라고 불림
- 오토인코더
- 차원 축소, 이상치 탐지, 노이즈 제거에 자주 사용
- 인코더, 디코더, 코드, 복원 오류로 구성
- 인코더 : 입력값을 저차원의 코드로 압축해 중요한 정보만 남기는 것
- 디코더 : 복원해 출력값을 생성
- 핵심 : 입력값과 출력값이 매우 비슷하면 둘의 차이인 복원 오류가 적을 것이고, 특성이 코드로 잘 표현
- Stacked Autoencorder, Sparse Autoencorder, Denoising Autoencorder, VAE
- GAN
- 이미지 생성에 많이 이용, 두 모델을 서로 적대적으로 학습시키는 비지도 방법
- 생성 모델 : 실제 이미지와 비슷한 이미지를 생성하는 목표
- 분류 모델 : 실제 이미지와 생성 모델이 생성한 가짜 이미지를 구분하는 것이 목표
< 참고 자료 >
[무료] 모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌 - 인프런 | 강의 (inflearn.com)
(173) Lec 00 - Machine/Deep learning 수업의 개요와 일정 - YouTube
파이토치로 시작하는 딥러닝 기초 (boostcourse.org)
텐서플로우로 시작하는 딥러닝 기초 (boostcourse.org)
모두를 위한 머신러닝/딥러닝 강의 (hunkim.github.io)
모두를 위한 딥러닝 시즌 2 | Deep Learning Zero To All - Season 2
728x90
반응형
LIST