Skip to content

BUCT-CS1701-SE-Design/newsAnalysisSystem

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

42 Commits
 
 
 
 

Repository files navigation

newsAnalysisSystem

数据获取与处理

主要使用Request和BeautifulSoup。 借助网站搜索引擎爬虫,利用正则表达式排除无关信息。 详见main.py

新闻分析

使用SnowNLP。自定义训练集并逐步完善。详见sense.py。

数据定制

可以改变爬虫规则获取指定参数的新闻。 可以爬取指定博物馆的指定时间段的新闻,默认是爬取所有博物馆的一年内的新闻。 详见main.py

数据更新入库

确保数据库中,同一个博物馆的新闻列表下没有重复的新闻,结合Python和mysql查询及添加语言更新入库。详见main.py。

部分数据展示

  • data.csv --- 依据数据库定义
  • titles.csv --- 新闻分析的输入
  • names.csv --- 统一各博物馆的编号
  • names.csv --- 统一各博物馆的编号

About

新闻采集分析子系统

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •  

Languages