-
Notifications
You must be signed in to change notification settings - Fork 2k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于avbook遭遇反爬虫的解决方案。 #60
Comments
是不是通过伪造IP方法解决? |
老哥骚的不行啊 |
增量数据关键是没有步兵... |
希望能加入爬步兵的代码.我 |
come on |
老板能否告知 这个修改UA 位置在哪里么? |
下载升级包进行数据库升级也不错,注意保护好个人隐私。 |
下載包有個密碼
…On 20/7/2019 at 12:12, miao wrote:
下载升级包进行数据库升级也不错,注意保护好个人隐私。
--
You are receiving this because you commented.
Reply to this email directly or view it on GitHub:
#60 (comment)
|
数据公开就算了,还让大家超线程爬,现在好了,目标网站改成hashid,原来的36进制id没法自增了吧?想办法挂日本代理,直接爬fanza吧 |
增量更新包挺好的,方便,直接! |
我之前一直都是单线程慢慢爬的,网站可能流量压力还没那么大,都是多线程肯定不好使 |
難搞了呀哈哈
Sent using the mail.com mail app
…On 21/7/2019 at 10:27, Leililei wrote:
数据公开就算了,还让大家超线程爬,现在好了,目标网站改成hashid,原来的36进制id没法自增了吧?想办法挂日本代理,直接爬fanza吧
--
You are receiving this because you commented.
Reply to this email directly or view it on GitHub:
#60 (comment)
|
自己一直维护着一个数据库, 好久了, 从0开始单线程爬取, 设置了爬取频率2.5秒, 30多万条全部爬完用了14天, 给人家服务器制造的压力非常小, 后期就每天增量一下. 后来发现这里有这么个项目, 您这可好, 1小时爬全站, 谁受得了? 我这想重新爬, 又害怕人家网站再随便改改, 我又白爬了. 太坑了. 过来发发牢骚, 别介意. |
有个办法,就是你搞个WEB(类似资源站的东西),采集入库后,然后爬虫直接采集你的WEB即可,比数据库什么升级包增量包不是更好?可以保证永久性。。。 |
公众号也被请去喝茶了吗?没上车的我表示没有开上车呀 |
在这里,我建议还是不要用公众号,毕竟这东西犯禁,建议移动到电报比较好,增量包其实是个不错的方案,对于只想获取资源的人来说,我今天微博上看到有人推荐这个源码,还没来得及爬资源,但是我还是把源码下载下来学习一下,毕竟你这爬取设计规则还是很好的。 希望老哥可以继续开源技术,另外,你可以放一下打赏二维码,让大家多多少少可以支持一下。开源万岁。 |
数据包升级可以,方便 |
当初我一下午爬完了30W数据。。现在后悔了。。。早知道不删库了。 |
建议docker,简直方便 |
目测是把人家网站爬崩了,500个并发,10来个人同时爬人家服务器都可能吃不消。 |
没上车的懊恼不已 |
别懊恼啊,不是有win的压缩包么。。 |
数据包可以单独给一个下载,不然 下载那么大的包 结果只用上了数据库 |
github上同步更新吧 |
建议单独更新数据包,再加上单线程爬取,在数据包的基础上慢速更新到最新日期是一个比较不错的选择 |
建议 |
没上车的懊恼不已XD |
单独更新数据包好,毕竟有些同学对代码不是很熟,肯定会有重复爬取的情况出现。 |
或者移到ZeroNet? |
这么多人爬网站肯定受不住,建议在GitHub上发布数据包,这样大家只需要从不限流的GitHub下载数据包 |
擦~来晚了 |
php不大会用,不如用python搞一个 |
来晚了~~ |
经过诸君这几天坚持不懈的爬取,目标网站终于升级了反爬虫机制,avbook爬虫现已失效。
新的反反爬虫方法暂不公开,后面新来的小伙伴暂时上不了车了,请耐心等待。
这里征集一下关于 avbook 数据库升级的方法与建议。
目前的想法是将增量数据同步到 github 或者 docker ,通过下载升级包进行数据库升级。
如果你有更好的建议欢迎告诉我。
The text was updated successfully, but these errors were encountered: