데이터의 민족

< 머신 러닝 > 본문

Machine Learning의 민족

< 머신 러닝 >

댕구리댕댕구리 2022. 3. 23. 10:37
728x90
반응형
SMALL

< 데이터 수집 >

  • 데이터를 사용하기 이전에 충분한 도메인 지식이 매우 강조

UCI Machine Learning Repository

IMDb Wiki | Fandom / IMDB-WIKI - 500k+ face images with age and gender labels (ethz.ch)

ImageNet (image-net.org)

Home - CIFAR

VQA: Visual Question Answering (visualqa.org)

 

Visual Question Answering

 

visualqa.org

 

< 데이터 셋의 정의 >

  • 통상적으로 훈련 6 /테스트 2 / 검증 2 사용
  • 비율 말고도 클래스 불균형 문제 고려 필요(데이터간 적절한 균형)
  • 발생 원인
    • 특정 기준에 편향된 경우 
    • 발생 빈도가 적은 경우
    • 해결방안
      • 오버샘플링
      • 언더샘플링
      • 리샘플링 교차 검증(K-fold 교차검증)
      • 부트스트래핑
      • 잭나이프 샘플링

 

< 모델 성능 평가 >

  • 오차를 나타내는 방법
    • 예측 : MSE, RMSE, MAE
    • 분류 : 정오분류표(실제 클래스와 모델이 예측한 데이터 클래스를 동시 표현)
  • 미리 지정한 컷오프, 역치의 초과 여부에 따라 클래스를 분류
    • 컷오프 =0.5 경우 / 클래스 1일 확률 : 55%, 2일 확률 45% / 클래스 1로 분류
  • 일반적인 평가 지표는 정확도 or 클래스에 따라 정밀도, 재현율, 특이성, F1_score, AUROC
  • 하이퍼파라미터
    • 그리드 서치 : 가능한 범위에서 값을 찾음
    • 랜덤 서치 : 무작위로 값을 찾음
    • 베이지안 최적화 : 최적의 확률을 베이지안 방식으로 계산
728x90
반응형
LIST

'Machine Learning의 민족' 카테고리의 다른 글

< 머신 러닝 - 비지도 학습>  (0) 2022.03.22
< 머신러닝 - 지도 학습 >  (0) 2022.03.22
Comments