Extraction d’information de spécialité avec un système commercial générique



Extraction d’information de spécialité avec un système commercial générique
Clothilde Royan, Jean-Marc Langé and Zied Abidi
Nous avons participé à la tâche 3 du Défi Fouille de texte 2020, dédiée à l’extraction d’information de spécialité, dans le but de tester notre produit commercial d’extraction d’information, Watson Knowledge Studio (WKS), face à des équipes académiques et industrielles.
Outre la quantité réduite de données d’apprentissage, la nature des annotations des corpus de référence posait des problèmes d’adaptation à notre produit. Aussi avons-nous dû modifier le schéma d’annotation du corpus d’apprentissage, exécuter l’apprentissage, puis appliquer des règles aux résultats obtenus afin d’obtenir des annotations conformes au schéma initial.
Nous avons également appliqué des dictionnaires de spécialité (anatomie, pathologie, etc.) pour injecter de la connaissance du domaine et renforcer les modèles d’apprentissage automatique.
Au final, nos résultats lors de la phase de test se situent dans la moyenne de l’ensemble des équipes, avec des F-mesures de 0,43 pour la sous-tâche 1 et 0,63 pour la sous-tâche 2.