Skip to content

Latest commit

 

History

History
33 lines (18 loc) · 1.95 KB

README.md

File metadata and controls

33 lines (18 loc) · 1.95 KB

GitHub Scraper

Этот проект представляет собой скрапер (веб-скрапер), который собирает данные из GitHub о репозиториях и сохраняет их в базу данных PostgreSQL для последующего использования в качестве материала для обучения нейронных сетей рекомендательных систем.

Описание

Скрапер написан на Python и использует библиотеки psycopg2 для работы с базой данных и requests для выполнения HTTP-запросов. Он выполняет следующие задачи:

  1. Получает метаданные репозиториев GitHub, включая названия, описания, темы, количество звезд, вилок, наблюдателей.
  2. Извлекает содержимое файлов README из репозиториев.
  3. Сохраняет собранные данные в базу данных PostgreSQL.

Установка

  1. Клонируйте этот репозиторий: git clone https://github.com/kikimora12304855/sckreb
  2. Перейдите в директорию проекта: cd sckreb

API_GITHUB

Его можно создать по ссылке https://github.com/settings/tokens?type=beta

Использование

  1. Поменяйте API_GITHUB, DBUSER, DBPASS, DBNAME, DBHOST на свои
  2. Запустите контейнеры Docker: docker-compose up -d
  3. Скрапер начнет собирать данные из GitHub и сохранять их в базу данных.

Лицензия

Этот проект распространяется по лицензии MIT License. См. файл LICENSE для более подробной информации.