2019_big_data_Challenge

预选赛

baseline

是2019.05.21晚上写的最初的版本，这个版本在0520-0526的数据集上public得分：0.86271889，但是无法通过private

baseline1

是2019.05.22上午写的另一个版本，里面有Logistic Regression、SGD classifier、朴素贝叶斯、k近邻、LinearSVC、RandomForestClassifier

baseline3

是另写的深度模型版本，这系列没有特别优化，然后因为预选赛数据量也不是很大，效果非常一般，可以参考我kaggle上的toxic系列赛的kernel->,模型中的embedding文件也可以从上面获取

result

实验效果是baseline1效果最好，其中的朴素贝叶斯效果最佳，最后通过成绩是用朴素贝叶斯和SGD，分别10折、15折、20折、30折共产生8组predictions提交文件，然后用sum文件进行合并，这里只是简单平均融合，线上0.87080826，通过private

赛题介绍

预选赛官网介绍->[https://www.kesci.com/home/competition/5cb80fd312c371002b12355f/content/1]

预选赛题——文本情感分类模型

本预选赛要求选手建立文本情感分类模型，选手用训练好的模型对测试集中的文本情感进行预测，判断其情感为「Negative」或者「Positive」。所提交的结果按照指定的评价指标使用在线评测数据进行评测，达到或超过规定的分数线即通过预选赛。

后续：

通过了预选赛，当时准备实习和校招，后续正式赛题没有时间继续跟进，不过基于上述baseline可以了解预选赛题的解法。

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
data		data
README.md		README.md
baseline.py		baseline.py
baseline1.py		baseline1.py
baseline3.py		baseline3.py
sum.py		sum.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

2019_big_data_Challenge

预选赛

baseline

baseline1

baseline3

result

赛题介绍

预选赛题——文本情感分类模型

后续：

About

Releases

Packages

Languages

TommyWongww/2019_big_data_Challenge

Folders and files

Latest commit

History

Repository files navigation

2019_big_data_Challenge

预选赛

baseline

baseline1

baseline3

result

赛题介绍

预选赛题——文本情感分类模型

后续：

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages