ybigta 1st project
19/2/13 : feature 탐색
19/2/14 : EDA ( application_train )
19/2/15 : EDA 통합 & 팀 미팅 (예정) / NA 처리 방법 , 머지 방법 확정
19/2/16 : FE 마무리 및 팀 발표
19/2/18 : 모델링 방법 탐색, boosting 모델 활용 CAT boost로 1차 제출하여 확인
19/2/20 : boosting 모델 Light GBM, XGBoost 모델 추가 사용
19/2/21 : 다시 FE 과정 / 파생변수 추가 최종데이터셋 확정
19/2/22 : XGB, Light GBM, CatBoost 합쳐 Stacking 최종 제출데이셋 확정
19/2/23 : 최종 팀 발표 및 대출데이터 팀 중 1등
- 종혁 / (팀장) 모델링 및 전처리 등 총괄
- 승민 / 모델링 및 EDA
- 나현 / 파생변수 확인 및 시각화, PPT 제작
- 성희 / 파생변수 총괄 FE 책임
- 1주차 EDA 파일(application 관련 데이터만)
- FE 자료는 AWS에서 하다가 실수로 지움... / 파생변수나 다른 파일 Merge는 다른 팀원이 R로.
- 2주차 최종 모델링 파일 ( BO, modeling, stacking ... )
- 불균형 데이터와 FE이 정말 난감한거 같음. 더 고민해봅시다..
- 실제 kaggle 자료를 이용해서 (더러운) 데이터를 처음 만져봐서 당황스럽기도 했음.
- Boosting 모델도 처음 접해보고 개괄적인 파악만 해서 사용하는데만 집중했기 때문에 이론적인 공부를 더 해야한다고 생각.
- 따라서, 시간될 때 Bayesian Optimization, XGBoost, Light GBM, CatBoost 논문 리뷰를 해보자.
- 나머지 공부는 Data Mining 전공 시간에...