Data Science соревнование по предсказанию звонков в экстренные службы на основе гео-данных.
- Страница соревнования
- Starter Kit с примером решения на основе OpenStreetMap
- Каталог с данными соревнования
- Расширенный набор данных для трека по журналистике данных
В таблице zones.csv
записаны квадраты, примерный размер — 500х500 метров. Все квадраты расположены в Москве, либо на небольшом расстоянии от Москвы. Квадрат задается координатами нижнего левого угла (lat_bl, lon_bl)
и верхнего правого (lat_tr, lon_tr)
. В колонках (lat_c, lon_c)
— координаты центра квадрата.
Квадраты, расположенные в западной части выборки, предназначены для обучения модели — для этих квадратов известно среднее число вызовов экстренных служб из квадрата в день:
calls_daily
: по всем днямcalls_workday
: по рабочим днямcalls_weekend
: по выходным днямcalls_wd{D}
: по дню неделиD
(0 — понедельник, 6 — воскресенье)
На квадратах из восточной части выборки необходимо построить прогноз числа вызовов по всем дням недели. Оцениваться качество предсказания будет не по всем квадратам, а по подмножеству, в которое не входят квадраты, вызовы из которых поступают крайне редко. Подмножество целевых квадратов имеет is_target=1
в таблице. Для тестовых квадратов значения calls_*
и is_target
скрыты.
На карте обозначены квадраты трех типов:
- Зеленые — из обучающей части, не целевые
- Красные — из обучающей части, целевые
- Синие — тестовые, на них необходимо построить прогноз
Для западной части Москвы и Московской области предоставляется таблица с указанием числа вызовов для всех квадратов по дням за период с 2017-09-01 по 2017-12-31. Эти данные можно использовать для журналистики данных.
Файлы:
extended_zones.csv
: список квадратов с указанием их координатextended_calls_daily.csv
: число вызовов по квадратам и по дням в колонкеcall_cnt_sum_1d
Обратите внимание:
- в расширенном наборе имеются квадраты по всей Московской области, а не только по ограниченной части вокруг Москвы
ZONE_ID
в расширенном наборе иzone_id
в основном — не соответствуют- число вызовов за один день может быть дробным; если оператор не может определить местоположение звонящего с точностью до квадрата, то он приписывает его к разным квадратам в соответствующих пропорциях
В качестве решения необходимо предоставить CSV таблицу с предсказаниями для всех тестовых квадратов, для каждого квадрата — по всем дням недели.
zone_id | calls_wd0 | calls_wd1 | calls_wd2 | calls_wd3 | calls_wd4 | calls_wd5 | calls_wd6 |
---|---|---|---|---|---|---|---|
79 | 0.825861 | 0.670869 | 0.786908 | 0.598091 | 1.247591 | 0.675773 | 0.633927 |
... | ... | ... | ... | ... | ... | ... | ... |
Качество оценивается только по подмножеству целевых квадратов. Участникам неизвестно, какие из квадратов целевые, однако принцип выбора целевых квадратов в обучающей и тестовой части — идентичен.
Во время соревнования качество оценивается на 30% тестовых целевых квадратов (выбраны случайно), в конце соревнования итоги подводятся по оставшимся 70% квадратов.
Метрика качества предсказаний — коэффициент ранговой корреляции Kendall's Tau-b, считается как доля пар объектов с неправильно упорядоченными предсказаниями с поправкой на пары с одинаковым значением целевой переменной. Метрика оценивает порядок, в котором предсказания соотносятся друг с другом, а не их точные значения. Разные дни недели считаются независимыми элементами выборки, т.е. коэффициент корреляции считается по предсказаниям для всех тестовых пар (zone_id, день недели)
(см. пример оценки качества в Starter Kit).
В тестирующей системе используется реализация Kendall's tau из пакета SciPy: scipy.stats.kendalltau
.