Алатка која би требало да ја олесни работата во собирање на реченици за проектот: Mozilla Common Voice. Алатката е далеку од совршена и подлежи на промени. Не се срами да придонесеш во нејзино подобрување и оптимизирање. :)
wget
python3
- Опционално:
virtualenv
$ git clone https://github.com/skopjehacklab/sentence-collector.git && cd sentence-collector
$ virtualenv venv --python=python3
$ source venv/bin/activate
И потоа во истата датотека:
pip install -r requirements.txt
- Преземете веб-страница чија содржина е објавена со лиценцата CC-0, со помош на следнава команда:
wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--reject '*.js,*.css,*.ico,*.txt,*.gif,*.jpg,*.jpeg,*.png,*.mp3,*.pdf,*.tgz,*.flv,*.avi,*.mpeg,*.iso' \
--accept html \
--restrict-file-names=windows \
--domains [ДОМЕЈНОТ НА СТРАНАТА ТУКА] \
--no-parent \
[ВЕБ САЈТОТ ТУКА]
Оставете командата да работи додека ги презема сите страници кои имаат некаква текст содржина.
- Во
raw_scraper.py
, промени ја променливатаsearchFolder
со датотеката каде што се наоѓаат преземаните содржини.
Изврши ја следнава команда:
$ cat Hamlet.txt | python extractor.py > output.txt
или директно во clipboard
$ cat Hamlet.txt | python extractor.py | xclip -selection clipboard
Програмата ќе ви каже колку реченици се успешно извадени и во кој фајл се зачувани. Фајлот ќе се креира во истата датотека кај што е програмата.
- Реченицата да содржи кирилични букви.
- Реченицата да не содржи цифри или броеви.
- Реченицата да не е поголема од 14 зборови или помала од 2 збора.
Лиценцата можеш да ја најдеш овде.