Introduction to Data Science with Python
Цель этого воркшопа показать, что data science с правильный набором инструментов гораздо более доступная сфера деятельности, чем может казаться на первый взгляд. Мы ознакомся с тем, как обрабатывать данные, строить модели и оценивать их эффективность. Во второй половине мы попробуем поработать над некоторыми датасетами в группах. К концу воркшопа вы выйдете с твердым пониманием необходимых инструментов и основ data science.
Начнем мы с простых примеров обработки сырых данных и получение из них инсайтов. Для этого мы будем использовать библиотеку Pandas, которая де-факто стала стандартом индустрии.
После того, как мы получим понимание того, что собой представляют наши данные, мы начнем процесс построение моделей. Используя Scikit Learn, мы рассмотрим то, как построить модель и оценить ее точность для использования в реальных приложения.
Наконец, иметь рабочую модель, которая хорошо описывает данные, не достаточно. Необходимо, как-то представить полученные инсайты более широкому кругу, для этого мы рассмотрим способы визуализации данных.
- Базовое понимание Python
- Понимание основ математики и статистики
- Любопытство и желание работать
- Скачайте соответствующий вашей системе файл установки (выбирайте версию Python 3.5) http://conda.pydata.org/miniconda.html.
- Процесс установки Miniconda для вашей системы описан здесь http://conda.pydata.org/docs/install/quick.html.
- Для проверки правильности установки conda наберите в командной строке: “conda list”, вы должны увидеть список установленных пакетов.
- Если у вас не установлен git, то самое время это сделать https://git-scm.com/downloads, https://git-scm.com/book/en/v2/Getting-Started-Installing-Git.
- Перейдите в папку в который содерится этот код, откройте термина и выполните комманду:
$ conda env create
- Это создаст необходимый нам environment, дальше нам нужно будет его загрузить выполнив комманду:
$ source activate ds101
- Все готово, осталось запустить jupyter:
$ jupyter notebook