Comparaison de méthodes d’extraction de mots-clés non supervisées pour les disciplines des sciences humaines et sociales



Comparaison de méthodes d’extraction de mots-clés non supervisées pour les disciplines des sciences humaines et sociales
Alaric Tabaries
Accéléré par l’émergence de la voie verte, la quantité d’information scientifique disponible en ligne augmente à un rythme sans précédent. Ce phénomène rend le processus de veille documentaire tant complexe que chrono-phage. C’est dans ce contexte que l’extraction d’information se pose en tant que service support au pré-traitement de la sélection documentaire. En effet, les mots-clés, qui représentent les sujets principaux traités dans un document, sont particulièrement utiles pour distinguer les ressources intéressantes dans un ensemble de documents important. Cependant, très peu en sont pourvus. L’extraction automatique de mots-clés permet de remédier à ce problème et montre d’ores et déjà des résultats satisfaisants sur des corpus de référence. Il a cependant été établi que certaines méthodes d’extraction performent mieux que d’autres pour les productions dans les disciplines des Sciences Humaines et Sociales. Nous proposons donc de mettre au point une expérimentation sur des jeux de données réels issus de publications identifiées sur la plateforme HAL en comparant les résultats selon les disciplines des publications afin d’identifier les méthodes d’extraction non supervisées qui performent le mieux pour servir un outil veille répondant au problème de surcharge informationnelle.