-
Notifications
You must be signed in to change notification settings - Fork 531
GeneralNewsExtractor Q&A
kingname edited this page Sep 11, 2019
·
3 revisions
GNE不是爬虫,它的项目名称General News Extractor
表示通用新闻抽取器
。它的输入是HTML,输出是一个包含新闻标题,新闻正文,作者,发布时间的字典。你需要自行设法获取目标网页的HTML。
GNE不支持翻页。因为GNE不会提供网页请求的功能,所以你需要自行获取每一页的HTML,并分别传递给GNE。
不小于Python 3.6.0
GNE是基于HTML来提取正文的,所以传入的HTML一定要是经过JavaScript渲染以后
的HTML。而requests和Scrapy获取的只是JavaScript渲染之前的源代码,所以无法正确提取。
另外,有一些网页,例如今日头条,它的新闻正文实际上是以JSON格式直接写在网页源代码的,当页面在浏览器上面打开的时候,JavaScript把源代码里面的正文解析为HTML。这种情况下,你在Chrome上面就看不到Ajax请求。
所以建议你使用Puppeteer/Pyppeteer/Selenium
之类的工具获取经过渲染的HTML再传入GNE。
不支持。