Представим, что мы работаем в сфере медицинского страхования.
У нас есть данные страховок граждан США. Нам поручили предсказать их индивидуальные расходы, оплачиваемые медицинской страховкой.
Делать это мы будем с помощью моделей линейной регрессии: мы прогоним данные через модель с базовыми настройками и с минимальной предобработкой данных,
затем испытаем модель на нормализованных данных, сравним результаты ее работы с результатами полиномиальной регрессии, и посмотрим на то, как поведут
себя регуляризованные модицикации полиномиальной регрессии.
Метрики
Для оценки качества моделей мы будем расчитывать коэффициент детерминации, среднюю абсолютную ошибк + ее же в процентах.
Работать будем с популярным датасетом Medical Cost Personal Datasets.
1 Знакомство с данными
2 Анализ данных
3 Подготовка данных
4 Машинное обучение
5 Вывод, обзор и сравнение результатов
Итог проделанной работы представлен в таблице метрик:
Наилучшего результата удалось получить нормализовав данные и регуляризовав функцию потерь lasso-методом. Однако величина ошибки остается довольно большй - 30%. Это явный признак того, что нам не хватает данных.