Есть дамп сообщений из канала open data science (блог про data science) из Слака. Описание: Веб-приложение, позволяющее осуществлять поиск по этому блогу
Постановка задачи:
- Распарсить данные, предобработать их
- Построить поисковый индекс и сжать его для эффективного хранения информации
- Разработать веб-приложение, к которому пользователи могут слать поисковые вопросы/запросы, а на выходе получать топ N релевантных ответов
- Предусмотреть исправление опечаток в пользовательском запросе
Используемые инструменты:
- Для парсинга: библиотека re
- Для предобработки, токенизации - библиотека nltk
- Для построения системы исправления опечаток: возможно sklearn(для обучения моделей)
-
pybabel compile -D app -d src/locales/ -l ru
pybabel compile -D app -d src/locales/ -l en
-
export PYTHONPATH="${PYTHONPATH}:{pwd}/src"
-
streamlit run src/app/MainPage.py
-
pip install -r requirements.dev.txt
-
playwright install
-
pytest tests/