Skip to content

Latest commit

 

History

History
33 lines (24 loc) · 2.68 KB

File metadata and controls

33 lines (24 loc) · 2.68 KB

Страховой прогноз с использованием линейной и полиномиальной регрессий

Легенда и задача

Представим, что мы работаем в сфере медицинского страхования.
У нас есть данные страховок граждан США. Нам поручили предсказать их индивидуальные расходы, оплачиваемые медицинской страховкой.
Делать это мы будем с помощью моделей линейной регрессии: мы прогоним данные через модель с базовыми настройками и с минимальной предобработкой данных, затем испытаем модель на нормализованных данных, сравним результаты ее работы с результатами полиномиальной регрессии, и посмотрим на то, как поведут себя регуляризованные модицикации полиномиальной регрессии.

Метрики
Для оценки качества моделей мы будем расчитывать коэффициент детерминации, среднюю абсолютную ошибк + ее же в процентах.

Краткая информация о данных

Работать будем с популярным датасетом Medical Cost Personal Datasets.

Этапы

1 Знакомство с данными
2 Анализ данных
3 Подготовка данных
4 Машинное обучение
5 Вывод, обзор и сравнение результатов

Результаты

Итог проделанной работы представлен в таблице метрик:

image

Выводы:

Наилучшего результата удалось получить нормализовав данные и регуляризовав функцию потерь lasso-методом. Однако величина ошибки остается довольно большй - 30%. Это явный признак того, что нам не хватает данных.