Skip to content

Тестовое задание для Школы Менеджеров Яндекс 2018

Notifications You must be signed in to change notification settings

mkobilev/yandex-pm-task

Repository files navigation

Забиваем микроскопом гвозди

log.csv - директорией выше
Anaconda / Python 3.6

Смотрим общее количество запросов

$ cat ../log.csv | grep 'text' | wc -l  
    1333503

Запросы, содержащие 'программа передач'

$ cat ../log.csv | grep 'программа передач' | wc -l
    690

Запросы, содержащие 'канал'

$ cat ../log.csv | grep 'канал' | wc -l
    3141

Ну очень приблеженно выберите запросы, связанные с просмотром телевидения составляют 3ю часть всех запросов

(3141+690)*100 / 1333503 
0.2872884425456861

Попробуем добить чуть мозгов

Ставим зависимости

$ pip install -r requirements.txt

mkdir output mkdit dataset

Создаем датасет

$ cat ../log.csv | grep 'программа передач' > output/tv_programm.csv
$ cat ../log.csv | grep 'канал' > output/tv_channel.csv  
$ cat ../log.csv | grep 'смотреть онлайн' > output/tv_online.csv
$ cat ../log.csv | grep 'сериал' > output/tv_serial.csv
$ head -n 1 ../log.csv > output/tv_dataset.csv

$ cat output/tv_programm.csv output/channel.csv output/tv_online.csv output/tv_serial.csv >> output/tv_dataset.csv
$ cat dataset/dataset_header.csv dataset/поиск_канала.csv dataset/программа_передач.csv dataset/просмотр_online.csv dataset/сериалы.csv > dataset/cleaned_dataset.csv

Приводим запросы в порядок

$ pyhton 1_dataset_setup.py

About

Тестовое задание для Школы Менеджеров Яндекс 2018

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages