Статус проекта: в разработке
В репозитории собраны все проекты выполненные на курсе, в том числе проекты с автоматической проверкой.
Цель - обобщить полученные знания и опыт, продемонстрировать полученные навыки.
Каждый проект помещён в одельный каталог, каталоги пронумерованы в порядке выполнения проектов. В каждом каталоге есть описание проекта и тетрадка с выполненным заданием.
Ниже приведены проекты лучше всего показывающие приобретённые навыки:
- Выпускной проект - Решение задачи регрессии, применение моделей градиентного бустинга: CatBoost и LightGBM, настройка гиперпараметров с Optuna, анализ остатков, оценка значимости признаков с Shap.
- Классификация тональности текстов - Создание векторных представлений текстов с BERT и классификация комментариев на негативные и позитивные.
- Прогнозирование заказов такси - Анализ временных рядов и предсказание следующего значения целевой переменной (регрессия).
- Определение стоимости автомобилей - Пример решения задачи регрессии в том числе с применением моделей градиентного бустинга: CatBoost и LightGBM.
- Определение возраста покупателей - Пример работы с изображениями, модель, определяющая по фотографии возраст человека.
- Сборный проект №2 - Исследование данных, тестирование статистических гипотез, красивые графики, настройка гиперпараметров моделей.
- Отток клиентов - Борьба с дисбалансом классов целевой переменной сравнение нескольких моделей между собой, настройка гиперпараметров.
- Выбор локации для скважины - Оценка возможных прибыли и убытков с помощью техники Bootstrap.
- Сборный проект №1 - Довольно тщательное исследования данных с выводами, красивые графики, тестирование гипотез.
Проекты расположены в хронологической последовательности, чтобы можно было оценить рост качества.
Название проекта | Описание | Используемые библиотеки | Подробное описание |
---|---|---|---|
Музыка больших городов | Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга в зависимости от времени (утро и вечер) и дня недели (понедельник, среда, пятница). | pandas | README.md |
Исследование надёжности заёмщиков | Задача определить какие факторы влияют на возврат кредита в срок, в частности, разобраться какое влияние оказывает семейное положение и количество детей. | pandas, seaborn, matplotlib | README.md |
Исследование объявлений о продаже квартир | Задача выполнить предобработку данных и изучить их, чтобы найти интересные особенности и зависимости, которые существуют на рынке недвижимости в Санкт-Перербурге и соседних населённых пунктах. | pandas, numpy, matplotlib | README.md |
Статистический анализ данных | Предварительный анализ тарифов на небольшой выборке клиентов. | pandas, seaborn, scipy.stats | README.md |
Сборный проект №1 | По историческим данным из открытых источников выявить определяющие успешность игры закономерности. | matplotlib, numpy, pandas, scipy.stats | README.md |
Рекомендация тарифов | Задача по данным о поведении клиентов мобильного оператора определить какой из двух новых тарифов предложить пользователю. | imblearn, matplotlib, numpy, seaborn, sklearn, pandas | README.md |
Отток клиентов | Задача по историческим данным о поведении клиентов банка спрогнозировать уйдёт клиент из банка в билжайшее время или нет. | category_encoders, imblearn, matplotlib, numpy, seaborn, sklearn, pandas | README.md |
Выбор локации для скважины | Задача решить где бурить скважину с помощью линейной регрессии и техники bootstrap. | matplotlib, numpy, pandas, seaborn, sklearn | README.md |
Сборный проект №2. Восстановление золота из руды | Задача подготовить модель, которая предскажет коэффициент восстановления золота из золотосодержащей руды, используя данные с параметрами добычи и очистки. | matplotlib, numpy, pandas, seaborn, scipy.stats, sklearn | README.md |
Защита персональных данных клиентов | Необходимо защитить данные клиентов страховой компании и разработайть такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию, обосновать корректность его работы. | matplotlib, numpy, pandas, seaborn, sklearn | README.md |
Определение стоимости автомобилей | Необходимо предсказать стоимость автомобиля по историческим данным: техническим характеристикам, комплектации и ценам. | CatBoost, category_encoders, LightGBM, matplotlib, numpy, pandas, seaborn, sklearn, scipy.stats | README.md |
Прогнозирование заказов такси | Анализ временных рядов. Необходимо построить модель, предсказывающую количество заказов такси на следующий час. | category_encoders, LightGBM, matplotlib, numpy, pandas, sklearn, statsmodels.tsa.seasonal | README.md |
Классификация тональности текстов | Необходимо построить модель, классифицирующую комментарии на позитивные и негативные. | joblib, LightGBM, matplotlib, numpy, pandas, seaborn, sklearn, torch, transformers | README.md |
Определение возраста покупателей | Необходимо построить модель, определяющую по фотографии приблизительный возраст человека. | keras, matplotlib, pandas | README.md |
Выпускной проект | Необходимо построить модель, прогнозирующую температуру стали в ковше перед разливкой. | catboost, lightgbm, matplotlib, numpy, optuna, pandas, seaborn, shap, sklearn | README.md |