Skip to content

V3nceZhang/spider_sklearn

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

spider_sklearn快速开始

一.配置:

注意:请使用项目自带的虚拟环境

  1. 进入spiders文件夹下找到SklearnSpider类,所有配置信息如下:
name = "sklearn"  # 要执行的spider的名字
allowed_domains = ["scikit-learn.org"]  # 域名
start_urls = [
    "https://scikit-learn.org/stable/modules/classes.html"  # 网页
]
mysql_util = MysqlUtil('localhost', 'root', '1234', 'AI_config')  # 数据库配置
sklearn_names = ['cluster', 'isotonic']  # 需要爬取的算法包名

建议修改项:mysql_util,sklearn_names

  1. 运行及debug配置:

配置好了上述环境之后,其实就可以直接在根目录下执行scrapy crawl <spider名>(初始为:scrapy crawl sklearn )进行爬取了

如果想要进行debug也可以直接执行debug.py文件,传入参数为crawl <spider名>(初始为:scrapy crawl sklearn)

  1. 其他:

所有的数据库操作默认在mysql_util中,默认在初始化类MysqlUtil时创建数据库连接,所有数据库操作使用同一个连接

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages