Собирач на реченици

Алатка која би требало да ја олесни работата во собирање на реченици за проектот: Mozilla Common Voice. Алатката е далеку од совршена и подлежи на промени. Не се срами да придонесеш во нејзино подобрување и оптимизирање. :)

Потребни алатки

wget
python3
Опционално: virtualenv

Инсталација

$ git clone https://github.com/skopjehacklab/sentence-collector.git && cd sentence-collector

Ако користиш `virtualenv`:

$ virtualenv venv --python=python3
$ source venv/bin/activate

И потоа во истата датотека:

pip install -r requirements.txt

Упатство за користење

Преземете веб-страница чија содржина е објавена со лиценцата CC-0, со помош на следнава команда:

wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --reject '*.js,*.css,*.ico,*.txt,*.gif,*.jpg,*.jpeg,*.png,*.mp3,*.pdf,*.tgz,*.flv,*.avi,*.mpeg,*.iso' \
     --accept html \
     --restrict-file-names=windows \
     --domains [ДОМЕЈНОТ НА СТРАНАТА ТУКА] \
     --no-parent \
         [ВЕБ САЈТОТ ТУКА]

Оставете командата да работи додека ги презема сите страници кои имаат некаква текст содржина.

Во raw_scraper.py, промени ја променливата searchFolder со датотеката каде што се наоѓаат преземаните содржини.

Што ако веќе имам текст и само сакам да извадам реченици?

Изврши ја следнава команда:

$ cat Hamlet.txt | python extractor.py > output.txt

или директно во clipboard

$ cat Hamlet.txt | python extractor.py | xclip -selection clipboard

Програмата ќе ви каже колку реченици се успешно извадени и во кој фајл се зачувани. Фајлот ќе се креира во истата датотека кај што е програмата.

Што ја прави една реченица „валидна“?

Реченицата да содржи кирилични букви.
Реченицата да не содржи цифри или броеви.
Реченицата да не е поголема од 14 зборови или помала од 2 збора.

Лиценца

Лиценцата можеш да ја најдеш овде.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.github/workflows		.github/workflows
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
dictionary.json		dictionary.json
extractor.py		extractor.py
raw_parser.py		raw_parser.py
requirements.txt		requirements.txt
test_extractor.py		test_extractor.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Собирач на реченици

Потребни алатки

Инсталација

Ако користиш `virtualenv`:

Упатство за користење

Што ако веќе имам текст и само сакам да извадам реченици?

Што ја прави една реченица „валидна“?

Лиценца

About

Releases

Packages

Contributors 3

Languages

License

skopjehacklab/sentence-collector

Folders and files

Latest commit

History

Repository files navigation

Собирач на реченици

Потребни алатки

Инсталација

Ако користиш virtualenv:

Упатство за користење

Што ако веќе имам текст и само сакам да извадам реченици?

Што ја прави една реченица „валидна“?

Лиценца

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Ако користиш `virtualenv`:

Packages