spider_sklearn快速开始

一.配置：

注意：请使用项目自带的虚拟环境

进入spiders文件夹下找到SklearnSpider类，所有配置信息如下：

name = "sklearn"  # 要执行的spider的名字
allowed_domains = ["scikit-learn.org"]  # 域名
start_urls = [
    "https://scikit-learn.org/stable/modules/classes.html"  # 网页
]
mysql_util = MysqlUtil('localhost', 'root', '1234', 'AI_config')  # 数据库配置
sklearn_names = ['cluster', 'isotonic']  # 需要爬取的算法包名

建议修改项：mysql_util,sklearn_names

运行及debug配置：

配置好了上述环境之后，其实就可以直接在根目录下执行scrapy crawl <spider名>(初始为：scrapy crawl sklearn )进行爬取了

如果想要进行debug也可以直接执行debug.py文件，传入参数为crawl <spider名>(初始为：scrapy crawl sklearn)

其他：

所有的数据库操作默认在mysql_util中，默认在初始化类MysqlUtil时创建数据库连接，所有数据库操作使用同一个连接

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
spider_sklearn		spider_sklearn
README.md		README.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

spider_sklearn快速开始

一.配置：

About

Releases

Packages

Languages

V3nceZhang/spider_sklearn

Folders and files

Latest commit

History

Repository files navigation

spider_sklearn快速开始

一.配置：

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages