一次性爬虫系列-----宅男福利

更新

2020-2-18:

发现用代理下载图片的过程中，会出现图片不完整

同时这种情况还很多

随即更新了一版

通过二进制图片结尾 '\xd9' 来判断
下载过程中，判断该图片是否为完整图片
同时对于已经下载的图片仍旧判断是否为完整图片 不完整则重新下载
牺牲了一定的性能，但是保证完整性

项目简介

首先感谢各位通过传送门来到这里，请star

这里有个故事，受朋友的委托去采集一位叫ycc的麻豆的图看来看去觉得漂亮，就在twitter上搜罗了一番随后发现此人曾经在秀人网叫gxx 随后笔者觉得整容前其实看着更有味道点随后去搜gxx，然后就找到这个网站

没有被墙不容易啊,请珍惜

不过这个网站有个蛋疼的地方就是浏览一个图集的时候，需要不断的翻页，用户体验很差所以笔者当下决定，写个爬虫撸一遍

截止笔者发稿，一共采集到15w张图片的url，正持续下载中为了影响人家到最小，笔者很轻柔的爬所以也希望各位请轻柔对待

致"宅福利"网站

首先跟"宅福利"这个网站的所有人说一声抱歉把您收集分享的图片给割了一波韭菜

前言

一次性系列，爬虫按照怎么快怎么写

所以说格式啊

代码风格啊

功能里的持久化啊

通通都没顾及

注意: 图片的集合已经采集好了,各位只需要clone 后直接下载就行

环境

python3
所需库:
requests
lxml

.
├── AISSaisi                # 爱丝图集
├── luyilu                  # 撸一撸图集
├── meiyanshe               # 魅妍社图集
├── meiyuanguan             # 美媛馆图集
├── tuinvlang               # 推女郎图集
├── youguo                  # 尤果图集
├── README.md               # readme
├── seeds_list.txt          # 所有图片url
├── image_list.txt          # 所有图集url
├── download_imags.py       # 图片下载
└── download_seeds.py       # 种子下载

启动方式

下载种子:
python3 download_seeds.py

自动遍历该网站所有分类，然后遍历各个分类里具体的图集，并保存下url

下载图片:
默认是 10个进程下载，需要的话，自己进代码里修改

python3 download_images.py

说明, 图片链接我已经采集好了，不用再下载种子了，直接下载图片就行了

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

一次性爬虫系列-----宅男福利

更新

项目简介

致"宅福利"网站

前言

环境

目录:

启动方式

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
tool		tool
README.md		README.md
download_imags.py		download_imags.py
download_seeds.py		download_seeds.py
image_list.txt		image_list.txt
seeds_list.txt		seeds_list.txt

beforeuwait/zhainanfuli

Folders and files

Latest commit

History

Repository files navigation

一次性爬虫系列-----宅男福利

更新

项目简介

致"宅福利"网站

前言

环境

目录:

启动方式

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages