Задача снижения размерности — это задача преобразования данных с целью уменьшения количества признаков, которые описывают объект.
В данной работе мы рассмотрим такие техники понижения размерности, как PCA и t-SNE.
Работу с PCA мы продемонстрируем с помощью датасета sklearn: импортируем MNIST — это данные, основанные на рукописном начертании цифр. Для данного датасета обучим модель, которая по пикселям изображения предскажет, что за цифра на нём изображена.
Метрика
Метрикой оценивания качества мы выберем accuracy.
Удалось заметно сократить время обучения модели (было 50.02 секунды, стало 30.89) без значительного понижения качества: было 0.925, стало 0.918.
Задача_2 Попробуем уменьшить размерность и визуализировать пространство пикселей, которые описывают данные рукописного начертания цифр. Сравним, какая визуализация получается при использовании PCA и tSNE.
Уменьшим размерность с помощью PCA:
Уменьшим размерность с помощью t-SNE:
Как видим, алгоритм t-SNE отлично справляется с уменьшением размерности для визуализации, а вот при использовании PCA данные не разделились на кластеры и пересекаются друг с другом — такую визуализацию анализировать будет уже неудобно.