Практическая часть курса посвящена основам работы с фреймворком spark.
Выполненные задания присылать на почту ailabintsev@fa.ru
Текущая успеваемость отражается в файле leaderboard.csv
Баллы за текущий контроль успеваемости складываются из первых трех ДЗ и активности на занятиях / в переписке. Максимум 5/5/10 за выполненные задания в срок + 5 баллов за активность.
Ссылка на гугл диск:
https://drive.google.com/drive/folders/14igaMTWTQvEszOYKfnVkjc8A0bpXLx3e
- Функциональная парадигма программирования. Функции высшего порядка - map, filter, reduce.
- Hadoop. Общие принципы распределенного хранения и обработки данных.
- Spark. Общие принципы, отличие от hadoop. Работа на одиночной машине и в кластере.
- Spark. 4 основных компонента библиотеки и их назначение.
- Spark. Ленивые и интенсивные вычисления (transformations and actions).
- Spark. Основные методы pyspark.sql.DataFrame и их назначение.
- Spark. Основные методы pyspark.pandas.DataFrame и их назначение.
- Spark. Основные методы RDD и их назначение.
- Spark SQL. Работа с запросами SQL.
- Spark ML. Линейная регрессия.
- Spark ML. Деревья решений.
Практические задания на экзамене будут как в ДЗ 3 и 4.
- Введение в функциональное программирование на python
- Введение в Spark. Установка, базовые API.
- Классы представления данных: DataFrame, RDD, PandasAPI.
- Работа с SQL представлениями, таблицами, базами данных.
- Spark ML. Линейная регрессия.
- Spark ML. Деревья решений.
Итого за 6 заданий 30 баллов (по 5 за задание).
10 баллов за активность на занятиях.
60 баллов за экзамен (30 теория, 30 практика).