Participation d’EDF R&D à DEFT 2020



Participation d’EDF R&D à DEFT 2020
Danrun Cao, Alexandra Benamar, Manel Boumghar, Meryl Bothua, Lydia Ould Ouali and Philippe Suignard
Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2020. Notre équipe a participé aux trois tâchés proposées : deux tâches sur le calcul de similarité sémantique entre phrases et une tâche sur l’extraction d’information fine autour d’une douzaine de catégories. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des scores au-dessus de la moyenne pour les tâches 1 et 2 et se classe 2e sur la tâche 1. Les méthodes proposées sont facilement transposables à d’autres cas d’application de détection de similarité qui peuvent concerner plusieurs entités du groupe EDF. Notre participation à la tâche 3 nous a permis de tester les avantages et limites de l’outil SpaCy sur l’extraction d’information.


Extraction d’information de spécialité avec un système commercial générique



Extraction d’information de spécialité avec un système commercial générique
Clothilde Royan, Jean-Marc Langé and Zied Abidi
Nous avons participé à la tâche 3 du Défi Fouille de texte 2020, dédiée à l’extraction d’information de spécialité, dans le but de tester notre produit commercial d’extraction d’information, Watson Knowledge Studio (WKS), face à des équipes académiques et industrielles.
Outre la quantité réduite de données d’apprentissage, la nature des annotations des corpus de référence posait des problèmes d’adaptation à notre produit. Aussi avons-nous dû modifier le schéma d’annotation du corpus d’apprentissage, exécuter l’apprentissage, puis appliquer des règles aux résultats obtenus afin d’obtenir des annotations conformes au schéma initial.
Nous avons également appliqué des dictionnaires de spécialité (anatomie, pathologie, etc.) pour injecter de la connaissance du domaine et renforcer les modèles d’apprentissage automatique.
Au final, nos résultats lors de la phase de test se situent dans la moyenne de l’ensemble des équipes, avec des F-mesures de 0,43 pour la sous-tâche 1 et 0,63 pour la sous-tâche 2.





DEFT 2020 – Extraction d’information fine dans les données cliniques : terminologies spécialisées et graphes de connaissance



DEFT 2020 – Extraction d’information fine dans les données cliniques : terminologies spécialisées et graphes de connaissance
Thomas Lemaitre, Camille Gosset, Mathieu Lafourcade, Namrata Patel and Guilhem Mayoral
This paper presents our rule-based approach for fine-grained information extraction in clinical data, submitted in reponse to Task 3 at the DEFT 2020 evaluation campaign. We design (1) a dedicated medical terminology from existing medical references and (2) a knowledge graph based on the semantically rich knowlege base – JeuxDeMots.