TIL - 2020년 10월 15일

💪 Today I Learned

Classification model error

Noise : 고칠 수 없는 원본 데이터의 결함
Bias : 데이터 내에 있는 모든 정보를 고려하지 않아 잘못된 것들을 학습하는 경향
- Underfitting 유발
Variance : 데이터의 너무 세세한 부분까지 학습하여 모델 변동성이 커짐
- Overfitting 유발

Model development process

feature selection
algorithm selection
hyper parameter tuning
evaluation

위와 같은 시퀀스로 진행되는데, 평가를 제외한 모든 과정에서 cross-validation은 필수다. 파라미터 튜닝 전에 train / test 데이터를 넣어 확인한다.

🏃 한마디

딥러닝/클라우드 교과목 중간고사 대체 과제가 머신러닝 경진대회이다. 아직 열흘 이상 남았지만 미리 해두고 싶어서 feature selection 만 진행해봤다.
연구실에 있을 때 이후로 처음 해보는 경진대회였고 R이 아닌 파이썬으로 하려니 많이 낯설었다. 전처리 과정에서 forward selection은 특히나 오래 걸렸는데 나중에 다시 돌려봐야겠다.