Skip to content

Latest commit

 

History

History
49 lines (42 loc) · 1.24 KB

Readme.md

File metadata and controls

49 lines (42 loc) · 1.24 KB

基于scrapy的多阶段式通用爬虫框架

前提环境

python

make (windows)

Chrome

使用

Note

环境配置: 环境配置

配置模板参考: 配置模板

配置字段文档: 配置详解

测试配置: 测试配置

待办

  • 添加测试配置
  • 添加 Makefile
  • 添加git提交预检查
  • 自动继承上个请求的cookie(假设存在)
  • 中间件添加
    • 请求头
    • 代理
    • 请求间隔
    • 重定向
    • 统计响应状态
    • 其他
  • 添加管道
    • mysql
    • mongodb
    • local csv/json/xlsx
    • 其他
  • 添加解析字段的额外处理逻辑
    • 解析前
    • 解析后
  • 添加浏览器的抓取方式 (中间件形式)
  • 添加通过点击生成配置的前端展示 生成配置
  • 其他
    • 添加接口方式提交配置进行抓取
    • 封装成容器
    • 根据通用配置生成requests爬虫