Bytes.dev Archive Scraper

一个用于下载 bytes.dev 网站所有档案的爬虫工具。

功能特点

异步并发下载，提高下载速度
支持自定义下载范围和并发数
保存完整的 HTML 内容和元数据
使用 JSON 格式存储数据

安装依赖

使用 uv 安装依赖：

uv pip install -r requirements.txt

使用方法

下载所有档案（默认从 1 到 378）：

python bytes_scraper.py

指定下载范围：

python bytes_scraper.py --start 100 --end 200

调整并发数：

python bytes_scraper.py --concurrency 30

组合使用参数：

python bytes_scraper.py --start 100 --end 200 --concurrency 30

参数说明

--start: 起始ID，默认为 1
--end: 结束ID，默认为 378
--concurrency: 并发下载数，默认为 20

输出格式

所有档案都会保存在 archives 目录下，每个档案以 JSON 格式存储，包含：

title: 文章标题
html_content: 完整的 HTML 内容
date: 发布日期

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
bytes_scraper.py		bytes_scraper.py
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Bytes.dev Archive Scraper

功能特点

安装依赖

使用方法

参数说明

输出格式

About

Releases

Packages

Languages

Areo-Joe/bytes-dev-sync

Folders and files

Latest commit

History

Repository files navigation

Bytes.dev Archive Scraper

功能特点

安装依赖

使用方法

参数说明

输出格式

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages