데이터의 민족

< 머신 러닝 - 비지도 학습> 본문

Machine Learning의 민족

< 머신 러닝 - 비지도 학습>

댕구리댕댕구리 2022. 3. 22. 20:12
728x90
반응형
SMALL

< 비지도 학습 >

  • 모델의 정답 없이 데이터만 제공된 상태에서 데이터의 패턴 파악
  • 잠재 변수 : 내재된 패턴을 설명할 수 있는 변수를 추출해 만드는 모델
  • 군집 분석 : 미리 정해진 분류 기준 없이 비슷한 특성의 모임을 생성
  • 차원 감축 : 비지도 학습의 문제점을 해결, 데이터를 표현하는 특성의 수를 줄임
  • 비지도 학습에서는 데이터 셋을 나눌 필요가 없음
  • 차원의 저주 완화 : 데이터의 특성이 많을수록 필요한 데이터의 개수가 급격히 증가하는 현상

 

< 평가 지표 >

    • 정략적 지표는 군집화의 질을 단편적으로 평가
      • 실루엣은 직접적으로 사용해 군집의 질을 단편적으로 추정
    • 모델 학습이 아니라 하이퍼파라미터를 찾는 데 사용
    • PCA에서 주성분의 개수, GMM에서 가우시안 분포의 개수, k-means에서 군집의 개수
    • 동일한 의도를 가지고 있는 다른 접근법에서는 각 군집이 내포하는 분산의 합이 전체 데이터의 분산에서 차지하는 비중인 설명 분산을 살펴봄
    • 정성적 평가는 시각화를 동반하는 경우가 많기에 PCA, T-SANE와 같은 기법을 사용해 3차원 이하의 공간으로 차원 축소 진행

 

< 사용 기법 >

    1.  K-means
      • 주어진 개체들을 K개의 군집으로 분할하는 기법
        • 가정 1 : 각 군집은 K개의 군집으로 분할
        • 가정 2 : 한 개체는 한 군집에만 속함
      • 한계점
        1.  몇 개의 군집으로 나눌지 미리 선정
        2. 중심점의 초기값에 따라 군집화 결과 변화
        3. 군집 대상이 볼록 집합이 아닌 경우 성능 저하 --> DBSCAN 알고리즘 적용
        4. 이상치에 민감 --> K-medians 알고리즘 적용
        5. 한 개체가 한 군집에만 속하는지 여부만 알고, 표현은 불가 --> fuzzy C-means 알고리즘 적용
    2.  PCA
      1. 차원 축소 방법, 데이터를 최대한 보존하면서 데이터를 저차원으로 변환하는 수직인 부분 공간
      2. 차원의 저주나 변수 간의 선형 상관성이나 차원의 어려움을 해결하는 요소
      3. 한계점
        • 변수의 단위에 따라 PCA의 결과가 변형(PCA 전에 변수의 표준화 진행)
        • 선형 변환을 통해 주어진 변수끼리 비선형 관계에 있을 때 적절한 차원의 축소가 이뤄지기 어려움(Kernel PCA / 오토인코더 사용)
        • PCA는 범주형 데이터에 사용 불가(MCA 사용)
    3. GMM 
      •  모수적 혼합 모델로 여러개의 가우시안 확률밀도함수를 조합해 주어진 데이터의 확률밀도함수를 추정하는 비지도 학습 군집분석
      • 잠재 변수를 이용해 각 가우시안 분포의 평균과 분산을 EM알고리즘으로 추정해 데이터의 확률밀도함수로 모델링
      • 보편 추정자라고 불림
    4. 오토인코더
      • 차원 축소, 이상치 탐지, 노이즈 제거에 자주 사용
      • 인코더, 디코더, 코드, 복원 오류로 구성
        • 인코더 : 입력값을 저차원의 코드로 압축해 중요한 정보만 남기는 것
        • 디코더 : 복원해 출력값을 생성
      • 핵심 : 입력값과 출력값이 매우 비슷하면 둘의 차이인 복원 오류가 적을 것이고, 특성이 코드로 잘 표현
      • Stacked Autoencorder, Sparse Autoencorder, Denoising Autoencorder, VAE
    5. GAN
      • 이미지 생성에 많이 이용, 두 모델을 서로 적대적으로 학습시키는 비지도 방법
      • 생성 모델 : 실제 이미지와 비슷한 이미지를 생성하는 목표
      • 분류 모델 : 실제 이미지와 생성 모델이 생성한 가짜 이미지를 구분하는 것이 목표

 

 

 

 

 

 


 

< 참고 자료 >

[무료] 모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌 - 인프런 | 강의 (inflearn.com)

(173) Lec 00 - Machine/Deep learning 수업의 개요와 일정 - YouTube

파이토치로 시작하는 딥러닝 기초 (boostcourse.org)

텐서플로우로 시작하는 딥러닝 기초 (boostcourse.org)

모두를 위한 머신러닝/딥러 강의 (hunkim.github.io)

모두를 위한 딥러닝 시즌 2 | Deep Learning Zero To All - Season 2

 

 

728x90
반응형
LIST

'Machine Learning의 민족' 카테고리의 다른 글

< 머신 러닝 >  (0) 2022.03.23
< 머신러닝 - 지도 학습 >  (0) 2022.03.22
Comments