Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали.
Окончательно задача формулируется следующим образом: необходимо прогнозировать температуру стали в ковше перед разливкой, то есть на самом последнем этапе.
Целевой признак - температура ковша с металлом перед разливкой.
Целевая метрика - MAE
Целевое значение: MAE должно быть не выше 6.8
Подробное описание проекта и решение задачи в тетрадке.
- Исследование данных
- Обработка аномальных значений, в т.ч. с sklearn.ensemble.IsolationForest
- Оценка информативности признаков с помощью взаимной информации (sklearn.feature_selection.mutual_info_classif), удаление неинформативных
- Заполнение пропусков
- Разработка новых признаков
- Использование моделей градиентрого бустинга: Catboost и LightGBM
- Оценка качества предсказаний моделей и анализ остатков
- Настройка гиперпараметров моделей с optuna
- Оформление графиков с seaborn и matplotlib
- Оценка значимости признаков для лучшей модели с shap
Исследование распределения значений целевого признака:
Сравнение качества предсказаний моделей до настройки гиперпараметров:
Распределение остатков Catboost после настройки гиперпараметров: