Nhóm 11
File: project_report.pdf
Nội dung:
- Mô tả về phương pháp làm sạch dữ liệu, thu thập thông tin và visualize dữ liệu.
- Mô tả về hai thuật toán sử dụng: TFIDF và SVM.
- Kết quả thử nghiệm và giải thich.
File: topic_detection_train.ipynb
Thực hiện quá trình phân tích dữ liệu, huấn luyện mô hình, đánh giá kết quả mô hình và xuất mô hình ra file trained_model.sav.
File: topic_detection_test.ipynb
Sử dụng file data_prep để thực hiện tiền xử lý dữ liệu và đưa ra dự đoán bằng file trained_model.sav.
File: data_prep.py
Thực hiện quá trình làm sạch dữ liệu, bao gồm:
- Loại bỏ đường dẫn, số điện thoại, email, thẻ html...
- Loại bỏ emoji
- Đưa văn bản về dạng chữ thường, chuẩn hóa dấu câu
- Loại bỏ khoảng trằng thừa
- Loại bỏ stopword có trong danh sách