💪 Today I Learned

SMOTE

  • Synthetic Minority Oversampling TEchnique
  • 데이터 개수가 적은 클래스의 표본을 가져와 임의의 값을 더하여 데이터에 추가

결국 데이터 전처리부터 다시 진행했다. 클래스가 많이 불균형하지는 않지만 최대한 균형을 맞추고 싶었다. 데이터 불균형을 처리하는 방법은 크게

  1. Undersampling
  2. Oversampling
  3. CSL (Cost Sensitive Learning)

가 있다. 찾아보니 분석을 위해서는 많은 데이터 확보가 효과적이기 때문에 오버샘플링 기법을 적용하는 것이 좋다고 한다. 그래서 가장 많이 사용하는 SMOTE 알고리즘을 이용했다. 하지만 데이터를 복제해 많은 양의 데이터를 만드는 만큼 오버피팅 가능성이 높다.

🏃 한마디

원래 오늘 끝냈어야 하는데 정확도가 많이 높아지지 않아 하루 더 투자해야 할 것 같다. 사실 기한은 일요일까지지만 다른 과목 시험 공부와 더불어 소프트 스퀘어드 과제 때문에 오래 잡고 있을 수가 없다. 내일 안에 보고서까지 꼭 마무리지어야겠다.