Nous sommes XU Yizhou et JIANG Chunyang, deux étudiants en Master 1 Traitement Automatique des Langues coopéré par l’Université Paris Sorbonne nouvelle, l’Université Paris Nanterre et l’INaLCO.
Nos langues de travail sont : le français, l’anglais et le chinois. Dans le cadre du cours Programmation et projet encadré 1, dirigé par R. Belmouhoub, J.-M. Daube et Serge Fleury, nous réaliserons un projet intitulé « la vie multilingue des mots sur le web ».
Comme nous ne sommes pas le propriétaire du jeu de données, nous ne le fournissons pas.
minigrep
Filtrage dans des fichiers multilingues.
Disponible sur http://www.tal.univ-paris3.fr/cours/minigrepmultilingue.htm
scws
Chinese tokenizer
Disponible sur https://github.com/hightman/scws