news_crawler

News crawler là một công cụ giúp bạn có crawl dữ liệu các website tin tức

Tác giả:

Nguyễn Phúc Lợi

Chức năng

Crawl theo website được tích hợp
Crawl theo chủ đề
Crawl tất cả chủ đề
Có thể giới hạn số trang

Trang web được tích hợp vào để crawl

Chủ đề

Giáo dục
Y tế
Khoa học
Công nghệ
Giải trí
Thể thao
Sức khoẻ
Đời sống
Du lịch

Web/Chủ đề	Giáo dục	Y tế	Khoa học	Công nghệ	Giải trí	hể thao	Sức khoẻ	Đời sống	Du lịch
VNEXPRESS	OK	OK	OK	OK	OK	OK	OK	OK	OK
BÁO MỚI	OK	OK	OK	OK	OK	OK	OK	OK	OK

Hướng đẫn

Cài đặt scrapy trước khi chạy

pip install Scrapy

Sau khi cài đặt xong bạn cần kiểm tra bằng lệnh sau

scrapy --version

Clone repository này về nhé, tiếp theo rõ và chạy command line scrapy list để hiện thị danh sách website để crawl

git clone https://github.com/nploi/news_crawler.git
cd news_crawler
scrapy list

Output sẽ là

baomoi
vnexpress

Chọn vnexpress hoặc baomoi nhé :))

scrapy crawl vnexpress -a category=the-thao -a limit=2

Chúc mừng bạn đã chạy thành công, hy vọng là vậy =]], vào thư mục vnexpress/Thể thao/ và xem thành quả của mình nào :v

Bạn cũng có thể chạy lệnh như sao để xuất tất cả dữ liệu vào một file .json

scrapy crawl vnexpress -a category=the-thao -a limit=2 -o vnexpress.json

Giải thích các tham số:

category: Chủ đề để crawl, có thể bỏ trống. Các chủ đề
- giao-duc
- suc-khoe
- khoa-hoc
- giai-tri
- the-thao
- doi-song
- du-lich
limit: Giới hạn số trang để crawl, tốt nhất là nên có tham số này để k phải đợi lâu, có thể bỏ trống.

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
news_crawler		news_crawler
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

news_crawler

Tác giả:

Chức năng

Trang web được tích hợp vào để crawl

Chủ đề

Hướng đẫn

About

Releases

Packages

Languages

License

nploi/news_crawler

Folders and files

Latest commit

History

Repository files navigation

news_crawler

Tác giả:

Chức năng

Trang web được tích hợp vào để crawl

Chủ đề

Hướng đẫn

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages