WebMagic in Action Little book of webmagic. 章节: 1. WebMagic概览 1.1 设计思想 1.2 项目组成 1.3 总体架构 2. 在项目中使用WebMagic 2.1 使用Maven 2.2 不使用Maven 2.3 第一个项目 3. 下载和编译源码 3.1 下载源码 3.2 导入项目 3.2.1 使用m2e插件 3.2.2 使用Maven Eclipse插件 4.3 编译和执行源码 4. 基本的爬虫 4.1 实现PageProcessor 4.1.1 爬虫的配置 4.1.2 页面元素的抽取 4.1.3 链接的发现 4.2 保存结果 5. 注解模式编写爬虫 TODO 6. 抽取工具详解 6.1 XPath 6.2 CSS选择器 6.3 正则表达式 6.4 JsonPath 7. 配置爬虫 7.1 抓取频率 7.2 编码 7.3 代理 7.4 设置cookie/UA等http头信息 7.5 重试机制 7.6 多线程 8. 爬虫的启动和终止 8.1 启动爬虫 8.2 终止爬虫 8.3 设置执行时间 8.4 定期抓取 9. 抽取结果的处理 9.1 输出到控制台 9.2 保存到文件 9.3 JSON格式输出 9.4 自定义持久化方式(mysql/mongodb…) 10. 管理URL 10.1 手动添加URL 10.2 在URL中保存信息 10.3 几种URL管理方式 10.4 自己管理爬虫的URL 11. 实例分析 11.1 基本的列表+详情页的抓取 11.2 抓取动态页面 11.3 分页抓取 11.4 定期抓取 11.5 增量更新