python3 各种爬虫技术
个人爬虫笔记:https://www.yuque.com/huangzhongqing/spider
@双愚 , 若fork或star请注明来源
- 爬虫介绍:https://www.yuque.com/docs/share/edb944f3-880a-4a48-a053-df2953be56b4?# 《爬虫基础学习(总结)》
- notes/01数据爬取requests_note
- notes/02数据解析note
- package/1request
- package/1request-advanced: cookie&代理
- package/2BeautifulSoup4
- package/3xpath
- package/4re正则表达式
- package/5selenium
- package/6wordcloud&jieba 词云
功能 | 包名 | 作用 |
---|---|---|
数据获取 | request | 爬取网页 |
数据 解析 | re | 正则表达式 |
BeautifulSoup | ||
xpath | xpath语法来进行文件格式解析 | |
lxml | lxml库结合libxml2快速强大的特性,使用xpath语法来进行文件格式解析,与Beautiful相比,效率更高。 | |
模拟浏览器 | Selenium | 用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。模拟点击 |
PhantomJS | 无界面浏览器 | |
pandas | ||
jieba | 使用结巴分词进行中文分词 | |
pandas | ||
wordcloud | 词云包 | |
matplotlib | 绘制图表 | |
random |
- practice/01复仇者联盟3豆瓣影评爬虫
- practice/02分析豆瓣中最新电影的影评(词云显示)《超时空同居》
- practice/03王菊微博评论数据抓取jupyter
- practice/04python模拟登录带验证码的网站
- practice/05抓取得到App音频数据
- practice/06python爬取公众号文章
- practice/07通过关键词爬取csdn博客文章
- practice/08百度搜狗百科关键词爬取
- practice/09大学排行榜榜单爬取
- practice/10bilibili视频爬取下载
读取保存excel,txt等文件
- 文件操作/excel
- 文件操作/json【todo】
- 文件操作/txt
本项目全部内容遵守 MIT 许可协议.