Страховой прогноз с использованием линейной и полиномиальной регрессий

Легенда и задача

Представим, что мы работаем в сфере медицинского страхования.
У нас есть данные страховок граждан США. Нам поручили предсказать их индивидуальные расходы, оплачиваемые медицинской страховкой.
Делать это мы будем с помощью моделей линейной регрессии: мы прогоним данные через модель с базовыми настройками и с минимальной предобработкой данных, затем испытаем модель на нормализованных данных, сравним результаты ее работы с результатами полиномиальной регрессии, и посмотрим на то, как поведут себя регуляризованные модицикации полиномиальной регрессии.

Метрики
Для оценки качества моделей мы будем расчитывать коэффициент детерминации, среднюю абсолютную ошибк + ее же в процентах.

Краткая информация о данных

Работать будем с популярным датасетом Medical Cost Personal Datasets.

Этапы

1 Знакомство с данными
2 Анализ данных
3 Подготовка данных
4 Машинное обучение
5 Вывод, обзор и сравнение результатов

Результаты

Итог проделанной работы представлен в таблице метрик:

Выводы:

Наилучшего результата удалось получить нормализовав данные и регуляризовав функцию потерь lasso-методом. Однако величина ошибки остается довольно большй - 30%. Это явный признак того, что нам не хватает данных.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Страховой прогноз с использованием линейной и полиномиальной регрессий

Легенда и задача

Краткая информация о данных

Этапы

Результаты

Выводы:

Ссылка на тетрадку с кодом

Files

README.md

Latest commit

History

README.md

File metadata and controls

Страховой прогноз с использованием линейной и полиномиальной регрессий

Легенда и задача

Краткая информация о данных

Этапы

Результаты

Выводы:

Ссылка на тетрадку с кодом