项目名称

当前版本: v0.0.1

简介

这是一个递归爬取网页的项目，思路是从一个主页开始，开始递归爬取所有的二级域名，获取到网站的所有的二级域名之后，我们开始递归爬取所有域名下的url，每个带有html内容的url，会先将html转换成markdown格式，然后再将markdown格式的内容保存到本地。如果html上有文件的链接也可以下载下来。

爬取效果：

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
img-source		img-source
.gitignore		.gitignore
README.md		README.md
crawler.py		crawler.py
custom_markdown_convert.py		custom_markdown_convert.py
extract_links.py		extract_links.py
file_handlers.py		file_handlers.py
file_types.json		file_types.json
get_domains.py		get_domains.py
main.py		main.py
requirements.txt		requirements.txt
urlmanager.py		urlmanager.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

项目名称

简介

About

Releases

Packages

Languages

li-xiu-qi/recursive-crawl

Folders and files

Latest commit

History

Repository files navigation

项目名称

简介

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages