[ 프로젝트 소개 ]
Playground는 Kaggle에서 주최한 마케팅 비용 예측 경진대회이다.
이번 프로젝트의 목표는 머신러닝을 활용하여 Kaggle 경진대회, Playground 마케팅비용 예측이다.
프로젝트 설명
https://www.kaggle.com/competitions/playground-series-s3e11/overview
Regression with a Tabular Media Campaign Cost Dataset | Kaggle
www.kaggle.com
미국의 유명한 대형마트 체인점들의 각 마트정보와 각 고객들에 대한 정보를 주고,
각 고객들의 정보에 따라 개인별 마케팅 예상비용이 얼마나 소요될지 예측하는 대회이다.
[ 개요 ]
1. 먼저 LGBM회귀모델로 전체적인 기능구현을 한번 돌려본다.
2. 관련된 개념들을 공부하며 성능향상에 도움이 되는 기능들을 도입한다. (옵튜나,kfold등등)
3. 전처리 및 피쳐엔지니어링으로 모델학습을 위한 최적의 데이터셋을 만든다.
4. 하이퍼파라미터 튜닝 후, 교차검증을 진행한다.
5. 다른 머신러닝 회귀모델들을 여럿 활용하여 최종적으로 스테킹 앙상블을 진행한다.
-> 지속적으로 피쳐엔지니어링, 튜닝, 교차검증 진행
[ 내용 ]
이번 포스트에서는 LGBM모델로 회귀예측을 진행하여 전체적인 기능구현을 한 차례 진행한다.
환경은 캐글 내에 있는 노트북(파이썬 노트북)이다.
vscode 환경에서는 .ipynb 파일로 진행한다.
LightGBM Regressor(회귀)는 연속적인 실수값을 예측할 때 유용한 모델이다.
먼저 sklearn라이브러리에서 평가지표(metrics)와 model_selection을 불러온다.
추후, 하이퍼파라미터 튜닝은 optuna를 사용할 예정.

이제 LGBM Regressor모델을 가져와, 내 train데이터로 학습시킨다.

내 모델명은 model_LGBM이다.
마지막으로 모델 평가를 한다.

평가방식은 MSLE = mean_squared_log_error 이며
이 수치 값이 적을수록 높은 정확도이다.
정리
아직 아무런 튜닝을 하지 않아, 평가스코어가 낮지만, 다양한 방법으로 하이퍼파라미터 튜닝을 하고 피쳐엔지니어링을 진행하여 스코어를(정확도) 높이고, 마지막으로 여러 모델들을 앙상블하여 더욱 더 스코어를 높일 계획이다.
< My Github Link >
https://github.com/seokjunHwang
seokjunHwang - Overview
Hwangseokjun. seokjunHwang has 4 repositories available. Follow their code on GitHub.
github.com
'AI > ML DL' 카테고리의 다른 글
| [머신러닝/딥러닝] 회귀예측 3 - 스태킹 앙상블(Stacking Ensemble) 설명 및 실전코드 (0) | 2023.09.11 |
|---|---|
| [머신러닝/딥러닝] Stacking Ensemble 스태킹 앙상블 (0) | 2023.09.08 |
| [머신러닝] 회귀예측 2 - 평가지표 MSLE , RMSLE (0) | 2023.09.07 |
| [머신러닝/딥러닝] Train / Validation / Test 차이 (0) | 2023.09.06 |
| MI Scores ( scikit-learn ) (0) | 2023.09.03 |