Les revues littéraires systématiques (RLS) constituent une méthodologie clé pour synthétiser les connaissances scientifiques en suivant un processus rigoureux. Ce projet s’inscrit dans une recherche sur l'application des modèles d'apprentissage génératifs (large language models - LLM) pour automatiser des tâches critiques des RLS, notamment la sélection d'articles, souvent laborieuse et source de biais. L'objectif principal est de créer des ensembles de données annotés pour évaluer l'efficacité des LLM dans cette tâche. Les données utilisées proviennent d'une quinzaine de RLS publiées, représentant plus de 35 000 articles. Ces données incluent des métadonnées (titres, résumés, mots-clés) ainsi que des informations décisionnelles (critères d'inclusion/exclusion, décisions des réviseurs). Cependant, ces informations sont souvent incomplètes et nécessitent une normalisation pour garantir leur exploitabilité. Pour cela, plusieurs étapes ont été menées : analyse des méthodologies de RLS, extraction des métadonnées et compilation des données à partir de fichiers HTML et BibTeX issus des principaux moteurs de recherche (IEEE, ACM, Science Direct, etc.). Des algorithmes ont été développés pour automatiser la récupération, le nettoyage et l’alignement des données. Au total, 16 jeux de données standardisés ont été créés, regroupant environ 35 000 articles. Ce projet contribue au développement d’outils permettant d’assister les chercheurs dans la curation de données tout en offrant une opportunité d’apprentissage approfondi de la méthodologie des RLS et de leur application à des cas pratiques.
-
Notifications
You must be signed in to change notification settings - Fork 0
geodes-sms/IFT3150-ProjetCurationMetadonnees
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published