[ 프로젝트 소개 ]

 

Playground는 Kaggle에서 주최한 마케팅 비용 예측 경진대회이다.

이번 프로젝트의 목표는 머신러닝을 활용하여 Kaggle 경진대회, Playground 마케팅비용 예측이다.

 

 

 

프로젝트 설명

https://www.kaggle.com/competitions/playground-series-s3e11/overview

 

Regression with a Tabular Media Campaign Cost Dataset | Kaggle

 

www.kaggle.com

 

 

미국의 유명한 대형마트 체인점들의 각 마트정보와 각 고객들에 대한 정보를 주고,

각 고객들의 정보에 따라 개인별 마케팅 예상비용이 얼마나 소요될지 예측하는 대회이다.

 

 

 

 

[ 개요 ]

 

1. 먼저 LGBM회귀모델로 전체적인 기능구현을 한번 돌려본다.

2. 관련된 개념들을 공부하며 성능향상에 도움이 되는 기능들을 도입한다. (옵튜나,kfold등등)

3. 전처리 및 피쳐엔지니어링으로 모델학습을 위한 최적의 데이터셋을 만든다.

4. 하이퍼파라미터 튜닝 후, 교차검증을 진행한다.

5. 다른 머신러닝 회귀모델들을 여럿 활용하여 최종적으로 스테킹 앙상블을 진행한다.

-> 지속적으로 피쳐엔지니어링, 튜닝, 교차검증 진행

 

 

 

[ 내용 ]

 

이번 포스트에서는 LGBM모델로 회귀예측을 진행하여 전체적인 기능구현을 한 차례 진행한다.

환경은 캐글 내에 있는 노트북(파이썬 노트북)이다.

vscode 환경에서는 .ipynb 파일로 진행한다.

 

 

 

LightGBM Regressor(회귀)는 연속적인 실수값을 예측할 때 유용한 모델이다.

 

먼저 sklearn라이브러리에서 평가지표(metrics)와 model_selection을 불러온다.

추후, 하이퍼파라미터 튜닝은 optuna를 사용할 예정.

 

 

이제 LGBM Regressor모델을 가져와, 내 train데이터로 학습시킨다.

 

내 모델명은 model_LGBM이다.

 

마지막으로 모델 평가를 한다.

 

 

평가방식은 MSLE = mean_squared_log_error 이며 

 

이 수치 값이 적을수록 높은 정확도이다.

 

 

 

정리

 

아직 아무런 튜닝을 하지 않아, 평가스코어가 낮지만, 다양한 방법으로 하이퍼파라미터 튜닝을 하고 피쳐엔지니어링을 진행하여 스코어를(정확도) 높이고, 마지막으로 여러 모델들을 앙상블하여 더욱 더 스코어를 높일 계획이다.

 

 

 

 

< My Github Link >

https://github.com/seokjunHwang

 

seokjunHwang - Overview

Hwangseokjun. seokjunHwang has 4 repositories available. Follow their code on GitHub.

github.com

 

+ Recent posts