Skip to content

balezz/learning_spark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

55 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Технологии обработки больших данных

Практическая часть курса посвящена основам работы с фреймворком spark.
Выполненные задания присылать на почту ailabintsev@fa.ru
Текущая успеваемость отражается в файле leaderboard.csv
Баллы за текущий контроль успеваемости складываются из первых трех ДЗ и активности на занятиях / в переписке. Максимум 5/5/10 за выполненные задания в срок + 5 баллов за активность.

Ссылка на гугл диск:
https://drive.google.com/drive/folders/14igaMTWTQvEszOYKfnVkjc8A0bpXLx3e

Вопросы к экзамену

  1. Функциональная парадигма программирования. Функции высшего порядка - map, filter, reduce.
  2. Hadoop. Общие принципы распределенного хранения и обработки данных.
  3. Spark. Общие принципы, отличие от hadoop. Работа на одиночной машине и в кластере.
  4. Spark. 4 основных компонента библиотеки и их назначение.
  5. Spark. Ленивые и интенсивные вычисления (transformations and actions).
  6. Spark. Основные методы pyspark.sql.DataFrame и их назначение.
  7. Spark. Основные методы pyspark.pandas.DataFrame и их назначение.
  8. Spark. Основные методы RDD и их назначение.
  9. Spark SQL. Работа с запросами SQL.
  10. Spark ML. Линейная регрессия.
  11. Spark ML. Деревья решений.

Практические задания на экзамене будут как в ДЗ 3 и 4.

Темы семинаров

  1. Введение в функциональное программирование на python
  2. Введение в Spark. Установка, базовые API.
  3. Классы представления данных: DataFrame, RDD, PandasAPI.
  4. Работа с SQL представлениями, таблицами, базами данных.
  5. Spark ML. Линейная регрессия.
  6. Spark ML. Деревья решений.

Итого за 6 заданий 30 баллов (по 5 за задание).
10 баллов за активность на занятиях.
60 баллов за экзамен (30 теория, 30 практика).

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published