spider

python3 各种爬虫技术

个人爬虫笔记：https://www.yuque.com/huangzhongqing/spider

@双愚 , 若fork或star请注明来源

note笔记

爬虫介绍：https://www.yuque.com/docs/share/edb944f3-880a-4a48-a053-df2953be56b4?# 《爬虫基础学习（总结）》
notes/01数据爬取requests_note
notes/02数据解析note

模块库

package/1request
package/1request-advanced: cookie&代理
package/2BeautifulSoup4
package/3xpath
package/4re正则表达式
1. re.findall
2. re.search
package/5selenium
package/6wordcloud&jieba 词云

功能	包名	作用
数据获取	request	爬取网页
数据解析	re	正则表达式
	BeautifulSoup
	xpath	xpath语法来进行文件格式解析
	lxml	lxml库结合libxml2快速强大的特性，使用xpath语法来进行文件格式解析，与Beautiful相比，效率更高。
模拟浏览器	Selenium	用于测试网站的自动化测试工具，支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器，同时也支持phantomJS无界面浏览器。模拟点击
	PhantomJS	无界面浏览器
	pandas
	jieba	使用结巴分词进行中文分词
	pandas
	wordcloud	词云包
	matplotlib	绘制图表
	random

通用代码(输出|表格|)

common.ipynb

爬虫实战

文件操作

读取保存excel，txt等文件

LICENSE

本项目全部内容遵守 MIT 许可协议.

Name		Name	Last commit message	Last commit date
Latest commit History 351 Commits
.idea		.idea
.vscode		.vscode
Python3爬虫三大案例实战		Python3爬虫三大案例实战
Spider		Spider
notes		notes
package		package
practice		practice
simplespider		simplespider
template		template
多线程异步		多线程异步
文件操作		文件操作
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
common.ipynb		common.ipynb
isis.csv		isis.csv
tempCodeRunnerFile.py		tempCodeRunnerFile.py
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

spider

note笔记

模块库

通用代码(输出|表格|)

爬虫实战

文件操作

LICENSE

About

Releases

Packages

Languages

License

HuangCongQing/Spider

Folders and files

Latest commit

History

Repository files navigation

spider

note笔记

模块库

通用代码(输出|表格|)

爬虫实战

文件操作

LICENSE

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages