기간
담당 역할 및 프로젝트 기여도
- 데이터 시각화 및 분석(100%)
- 모델링(100%)
주요기술
- LightGBM+CatBoost+XGBoost Classifier Voting Ensemble
요약
-
데이터 전처리
- 컬럼 내 모든 데이터가 결측치인 경우 해당 컬럼 삭제
- train data의 통계정보를 바탕으로 test data 보간
- train data의 분포가 imbalanced 하여 세가지 데이터셋을 준비
- 전체 데이터를 증강한 데이터셋
- 적은 데이터만 선택적으로 증강한 데이터셋
- 가장 많은 데이터의 수를 줄여 분포를 균일하게 한 데이터셋
-
모델링
- 각 세가지 데이터셋에 대하여 LightGBM+CatBoost+XGBoost Classifier Voting Ensemble 학습 후 Hard Voting
성과
- 온라인 교육 수료 및 해커톤 참여
- 온라인 해커톤 상위5%(495팀 중 25위) 및 오프라인 해커톤 진출
프로젝트 내용