Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于avbook遭遇反爬虫的解决方案。 #60

Open
guyueyingmu opened this issue Jul 18, 2019 · 33 comments
Open

关于avbook遭遇反爬虫的解决方案。 #60

guyueyingmu opened this issue Jul 18, 2019 · 33 comments

Comments

@guyueyingmu
Copy link
Owner

经过诸君这几天坚持不懈的爬取,目标网站终于升级了反爬虫机制,avbook爬虫现已失效。

新的反反爬虫方法暂不公开,后面新来的小伙伴暂时上不了车了,请耐心等待。

这里征集一下关于 avbook 数据库升级的方法与建议。

目前的想法是将增量数据同步到 github 或者 docker ,通过下载升级包进行数据库升级。

如果你有更好的建议欢迎告诉我。

@weiyidu
Copy link

weiyidu commented Jul 18, 2019

是不是通过伪造IP方法解决?
下载升级包太麻烦了吧,数据库版本最好能支持5.5,毕竟5.7要求硬件太高了。

@peterrosetu
Copy link

老哥骚的不行啊

@noonefoundme
Copy link

增量数据关键是没有步兵...

@noonefoundme
Copy link

希望能加入爬步兵的代码.我

@865826021
Copy link

come on

@netstat2016
Copy link

老板能否告知 这个修改UA 位置在哪里么?

@lsubaa
Copy link

lsubaa commented Jul 20, 2019

下载升级包进行数据库升级也不错,注意保护好个人隐私。

@netstat2016
Copy link

netstat2016 commented Jul 20, 2019 via email

@leililei
Copy link

数据公开就算了,还让大家超线程爬,现在好了,目标网站改成hashid,原来的36进制id没法自增了吧?想办法挂日本代理,直接爬fanza吧

@afboyxiyang
Copy link

增量更新包挺好的,方便,直接!

@moozik
Copy link

moozik commented Jul 22, 2019

我之前一直都是单线程慢慢爬的,网站可能流量压力还没那么大,都是多线程肯定不好使
建议有杀伤力的代码别公开,只公开一个用于访问的web服务,数据包另外下载,这样你的爬虫可以长久运行不会被封杀,没有编程基础的也不用倒腾爬虫了,直接下载增量包就可以,适当收费也不是不行

@netstat2016
Copy link

netstat2016 commented Jul 23, 2019 via email

@Sugimoto-Dev
Copy link

自己一直维护着一个数据库, 好久了, 从0开始单线程爬取, 设置了爬取频率2.5秒, 30多万条全部爬完用了14天, 给人家服务器制造的压力非常小, 后期就每天增量一下. 后来发现这里有这么个项目, 您这可好, 1小时爬全站, 谁受得了? 我这想重新爬, 又害怕人家网站再随便改改, 我又白爬了. 太坑了. 过来发发牢骚, 别介意.

@imhut
Copy link

imhut commented Jul 25, 2019

有个办法,就是你搞个WEB(类似资源站的东西),采集入库后,然后爬虫直接采集你的WEB即可,比数据库什么升级包增量包不是更好?可以保证永久性。。。
当然,也支持一段时间公布爬虫,这样可以保持充分开源(最好有一定门槛),给要折腾的人玩,只想爬数据的直接用你的爬虫自动玩就行了。。。。
好了,我还没开始,准备开始,一看7.19进来了这里。。。。当然,之前也打算开始的,自己也结合某车打算玩玩的,不过还没想好。。。

@huxingming
Copy link

公众号也被请去喝茶了吗?没上车的我表示没有开上车呀

@yousifun
Copy link

在这里,我建议还是不要用公众号,毕竟这东西犯禁,建议移动到电报比较好,增量包其实是个不错的方案,对于只想获取资源的人来说,我今天微博上看到有人推荐这个源码,还没来得及爬资源,但是我还是把源码下载下来学习一下,毕竟你这爬取设计规则还是很好的。

希望老哥可以继续开源技术,另外,你可以放一下打赏二维码,让大家多多少少可以支持一下。开源万岁。

@Firday
Copy link

Firday commented Jul 30, 2019

数据包升级可以,方便

@HelplessMan
Copy link

当初我一下午爬完了30W数据。。现在后悔了。。。早知道不删库了。

@mengdodo
Copy link

mengdodo commented Aug 6, 2019

建议docker,简直方便

@beforeuwait
Copy link

目测是把人家网站爬崩了,500个并发,10来个人同时爬人家服务器都可能吃不消。
项目有意思,表示去会会人家的反爬策略

@susengo
Copy link

susengo commented Aug 13, 2019

没上车的懊恼不已

@BlacK201
Copy link

没上车的懊恼不已

别懊恼啊,不是有win的压缩包么。。

@GoToBoy
Copy link

GoToBoy commented Oct 1, 2019

数据包可以单独给一个下载,不然 下载那么大的包 结果只用上了数据库

@h958661134
Copy link

github上同步更新吧

@Devourd
Copy link

Devourd commented Nov 5, 2019

建议单独更新数据包,再加上单线程爬取,在数据包的基础上慢速更新到最新日期是一个比较不错的选择

@wangcong099878
Copy link

建议
docker

@pentestcoffee
Copy link

没上车的懊恼不已XD

@fetter1991
Copy link

单独更新数据包好,毕竟有些同学对代码不是很熟,肯定会有重复爬取的情况出现。

@xingheng
Copy link

或者移到ZeroNet?

@fr0der1c
Copy link

fr0der1c commented Feb 3, 2020

这么多人爬网站肯定受不住,建议在GitHub上发布数据包,这样大家只需要从不限流的GitHub下载数据包

@Lrvineshaw
Copy link

擦~来晚了

@Leiyinqi
Copy link

php不大会用,不如用python搞一个

@majiajue
Copy link

来晚了~~

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests