[머신러닝] 회귀예측 1 - 프로젝트 소개 및 LightGBMRegressor 모델활용

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

2023. 9. 5. 23:53

[ 프로젝트 소개 ]

Playground는 Kaggle에서 주최한 마케팅 비용 예측 경진대회이다.

이번 프로젝트의 목표는 머신러닝을 활용하여 Kaggle 경진대회, Playground 마케팅비용 예측이다.

프로젝트 설명

https://www.kaggle.com/competitions/playground-series-s3e11/overview

Regression with a Tabular Media Campaign Cost Dataset | Kaggle

www.kaggle.com

미국의 유명한 대형마트 체인점들의 각 마트정보와 각 고객들에 대한 정보를 주고,

각 고객들의 정보에 따라 개인별 마케팅 예상비용이 얼마나 소요될지 예측하는 대회이다.

[ 개요 ]

1. 먼저 LGBM회귀모델로 전체적인 기능구현을 한번 돌려본다.

2. 관련된 개념들을 공부하며 성능향상에 도움이 되는 기능들을 도입한다. (옵튜나,kfold등등)

3. 전처리 및 피쳐엔지니어링으로 모델학습을 위한 최적의 데이터셋을 만든다.

4. 하이퍼파라미터 튜닝 후, 교차검증을 진행한다.

5. 다른 머신러닝 회귀모델들을 여럿 활용하여 최종적으로 스테킹 앙상블을 진행한다.

-> 지속적으로 피쳐엔지니어링, 튜닝, 교차검증 진행

[ 내용 ]

이번 포스트에서는 LGBM모델로 회귀예측을 진행하여 전체적인 기능구현을 한 차례 진행한다.

환경은 캐글 내에 있는 노트북(파이썬 노트북)이다.

vscode 환경에서는 .ipynb 파일로 진행한다.

LightGBM Regressor(회귀)는 연속적인 실수값을 예측할 때 유용한 모델이다.

먼저 sklearn라이브러리에서 평가지표(metrics)와 model_selection을 불러온다.

추후, 하이퍼파라미터 튜닝은 optuna를 사용할 예정.

이제 LGBM Regressor모델을 가져와, 내 train데이터로 학습시킨다.

내 모델명은 model_LGBM이다.

마지막으로 모델 평가를 한다.

평가방식은 MSLE = mean_squared_log_error 이며

이 수치 값이 적을수록 높은 정확도이다.

정리

아직 아무런 튜닝을 하지 않아, 평가스코어가 낮지만, 다양한 방법으로 하이퍼파라미터 튜닝을 하고 피쳐엔지니어링을 진행하여 스코어를(정확도) 높이고, 마지막으로 여러 모델들을 앙상블하여 더욱 더 스코어를 높일 계획이다.

< My Github Link >

https://github.com/seokjunHwang

seokjunHwang - Overview

Hwangseokjun. seokjunHwang has 4 repositories available. Follow their code on GitHub.

github.com

'AI > ML DL' 카테고리의 다른 글

[머신러닝/딥러닝] 회귀예측 3 - 스태킹 앙상블(Stacking Ensemble) 설명 및 실전코드 (0)	2023.09.11
[머신러닝/딥러닝] Stacking Ensemble 스태킹 앙상블 (0)	2023.09.08
[머신러닝] 회귀예측 2 - 평가지표 MSLE , RMSLE (0)	2023.09.07
[머신러닝/딥러닝] Train / Validation / Test 차이 (0)	2023.09.06
MI Scores ( scikit-learn ) (0)	2023.09.03

Steady and Winner