Skip to content
This repository has been archived by the owner on Nov 13, 2022. It is now read-only.
/ news_crawler Public archive

News crawler là một công cụ giúp bạn có thể crawl dữ liệu của một trang tin tức.

License

Notifications You must be signed in to change notification settings

nploi/news_crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

36 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

news_crawler

News crawler là một công cụ giúp bạn có crawl dữ liệu các website tin tức

Tác giả:

Chức năng

  • Crawl theo website được tích hợp
  • Crawl theo chủ đề
  • Crawl tất cả chủ đề
  • Có thể giới hạn số trang

Trang web được tích hợp vào để crawl

Chủ đề

  • Giáo dục
  • Y tế
  • Khoa học
  • Công nghệ
  • Giải trí
  • Thể thao
  • Sức khoẻ
  • Đời sống
  • Du lịch
Web/Chủ đề Giáo dục Y tế Khoa học Công nghệ Giải trí hể thao Sức khoẻ Đời sống Du lịch
VNEXPRESS OK OK OK OK OK OK OK OK OK
BÁO MỚI OK OK OK OK OK OK OK OK OK

Hướng đẫn

Cài đặt scrapy trước khi chạy

pip install Scrapy

Sau khi cài đặt xong bạn cần kiểm tra bằng lệnh sau

scrapy --version

Clone repository này về nhé, tiếp theo rõ và chạy command line scrapy list để hiện thị danh sách website để crawl

git clone https://github.com/nploi/news_crawler.git
cd news_crawler
scrapy list

Output sẽ là

baomoi
vnexpress

Chọn vnexpress hoặc baomoi nhé :))

scrapy crawl vnexpress -a category=the-thao -a limit=2

Chúc mừng bạn đã chạy thành công, hy vọng là vậy =]], vào thư mục vnexpress/Thể thao/ và xem thành quả của mình nào :v

Bạn cũng có thể chạy lệnh như sao để xuất tất cả dữ liệu vào một file .json

scrapy crawl vnexpress -a category=the-thao -a limit=2 -o vnexpress.json

Giải thích các tham số:

  • category: Chủ đề để crawl, có thể bỏ trống. Các chủ đề
    • giao-duc
    • suc-khoe
    • khoa-hoc
    • giai-tri
    • the-thao
    • doi-song
    • du-lich
  • limit: Giới hạn số trang để crawl, tốt nhất là nên có tham số này để k phải đợi lâu, có thể bỏ trống.

About

News crawler là một công cụ giúp bạn có thể crawl dữ liệu của một trang tin tức.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages