Задача подготовить модель, которая должна предсказать коэффициент восстановления золота из золотосодержащей руды, используя данные с параметрами добычи и очистки.
Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Подробное описание проекта и решение задачи в тетрадке.
- Заполнение пропусков
- Очистка данных от аномалий
- Манипуляции с данными средствами pandas
- Исследовательский анализ данных
- Тестирование статистических гипотез: проверка гипотезы о равенстве средних с помощью scipy.stats.ttest_ind и проверка гипотезы о принадлежности двух независимых выборок одному закону распределения с помощью критерия Колмагорова-Смирнова и scipy.stats.ks_2samp
- Использование конвейеров из sklearn.pipeline.Pipeline
- Создание собственной метрики качества модели с sklearn.metrics.make_scorer
- Оценка моделей производительности моделей и вывода результатов
- Настройка гиперпараметров моделей с sklearn.model_selection.GridSearchCV
- Оформление графиков с seaborn и matplotlib
Ниже приведены некоторые графики из разделов с исследованием данных.
Исследование распределений признаков