Participation de l’équipe du LIMICS à DEFT 2020



Participation de l’équipe du LIMICS à DEFT 2020
Perceval Wajsbürt, Yoann Taillé, Guillaume Lainé and Xavier Tannier
Nous présentons dans cet article les méthodes conçues et les résultats obtenus lors de notre participa-tion à la tâche 3 de la campagne d’évaluation DEFT 2020, consistant en la reconnaissance d’entitésnommées du domaine médical. Nous proposons deux modèles différents permettant de prendre encompte les entités imbriquées, qui représentent une des difficultés du jeu de données proposées,et présentons les résultats obtenus. Notre meilleur run obtient la meilleure performance parmi lesparticipants, sur l’une des deux sous-tâches du défi.


Approche supervisée de calcul de similarité sémantique entre paires de phrases



Approche supervisée de calcul de similarité sémantique entre paires de phrases
Khadim Dramé, Gorgoumack Sambe, Ibrahima Diop and Lamine Faty
Ce papier décrit les méthodes que nous avons développées pour participer aux tâches 1 et 2 de l’édition 2020 du défi fouille de textes (DEFT 2020). Pour la première tâche, qui s’intéresse au calcul de scores de similarité sémantique entre paires de phrases, sur une échelle de 0 à 5, une approche supervisée où chaque paire de phrases est représentée par un ensemble d’attributs a été proposée. Des algorithmes classiques d’apprentissage automatique sont ensuite utilisés pour entrainer les modèles. Différentes mesures de similarité textuelle sont explorées et les plus pertinentes sont combinées pour supporter nos méthodes. Différentes combinaisons ont été testées et évaluées sur les données de test du DEFT 2020. Notre meilleur système qui s’appuie sur un modèle Random Forest a obtenu les meilleures performances sur la première tâche avec une EDRM de 0,8216.





DEFT 2020 : détection de similarité entre phrases et extraction d’information



DEFT 2020 : détection de similarité entre phrases et extraction d’information
Mike Tapi Nzali
Ce papier décrit la participation de Reezocar à la campagne d’évaluation DEFT 2020. Cette seizième édition du challenge a porté sur le calcul de similarité entre phrases et l’extraction d’information fine autour d’une douzaine de catégories dans des textes rédigés en Français. Le challenge propose trois tâches: (i) la première concerne l’identification du degré de similarité entre paires de phrases; (ii) la deuxième concerne l’identification des phrases parallèles possibles pour une phrase source et (iii) la troisième concerne l’extraction d’information.
Nous avons utilisé des méthodes d’apprentissage automatique pour effectuer ces tâches et avons obtenu des résultats satisfaisants sur l’ensemble des tâches.





Contextualized French Language Models for Biomedical Named Entity Recognition



Contextualized French Language Models for Biomedical Named Entity Recognition
Jenny Copara, Julien Knafou, Nona Naderi, Claudia Moro, Patrick Ruch and Douglas Teodoro
Named entity recognition (NER) is key for biomedical applications as it allows knowledge discovery in free text data. As entities are semantic phrases, their meaning is conditioned to the context to avoid ambiguity. In this work, we explore contextualized language models for NER in French biomedical text as part of the Défi Fouille de Textes challenge. Our best approach achieved an F1-measure of 66% for symptoms and signs, and pathology categories, being top 1 for subtask 1. For anatomy, dose, exam, mode, moment, substance, treatment, and value categories, it achieved an F1-measure of 75% (subtask 2). If considered all categories, our model achieved the best result in the challenge, with an F1-measure of 72%. The use of an ensemble of neural language models proved to be very effective, improving a CRF baseline by up to 28% and a single specialised language model by 4%.





Participation d’EDF R&D à DEFT 2020



Participation d’EDF R&D à DEFT 2020
Danrun Cao, Alexandra Benamar, Manel Boumghar, Meryl Bothua, Lydia Ould Ouali and Philippe Suignard
Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2020. Notre équipe a participé aux trois tâchés proposées : deux tâches sur le calcul de similarité sémantique entre phrases et une tâche sur l’extraction d’information fine autour d’une douzaine de catégories. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des scores au-dessus de la moyenne pour les tâches 1 et 2 et se classe 2e sur la tâche 1. Les méthodes proposées sont facilement transposables à d’autres cas d’application de détection de similarité qui peuvent concerner plusieurs entités du groupe EDF. Notre participation à la tâche 3 nous a permis de tester les avantages et limites de l’outil SpaCy sur l’extraction d’information.


Extraction d’information de spécialité avec un système commercial générique



Extraction d’information de spécialité avec un système commercial générique
Clothilde Royan, Jean-Marc Langé and Zied Abidi
Nous avons participé à la tâche 3 du Défi Fouille de texte 2020, dédiée à l’extraction d’information de spécialité, dans le but de tester notre produit commercial d’extraction d’information, Watson Knowledge Studio (WKS), face à des équipes académiques et industrielles.
Outre la quantité réduite de données d’apprentissage, la nature des annotations des corpus de référence posait des problèmes d’adaptation à notre produit. Aussi avons-nous dû modifier le schéma d’annotation du corpus d’apprentissage, exécuter l’apprentissage, puis appliquer des règles aux résultats obtenus afin d’obtenir des annotations conformes au schéma initial.
Nous avons également appliqué des dictionnaires de spécialité (anatomie, pathologie, etc.) pour injecter de la connaissance du domaine et renforcer les modèles d’apprentissage automatique.
Au final, nos résultats lors de la phase de test se situent dans la moyenne de l’ensemble des équipes, avec des F-mesures de 0,43 pour la sous-tâche 1 et 0,63 pour la sous-tâche 2.





DOING@DEFT : cascade de CRF pour l’annotation d’entités cliniques imbriquées



DOING@DEFT : cascade de CRF pour l’annotation d’entités cliniques imbriquées
Anne-Lyse Minard, Andréane Roques, Nicolas Hiot, Mirian Halfeld Ferrari Alves and Agata Savary
Cet article présente le système développé par l’équipe DOING pour la campagne d’évaluation DEFT 2020 portant sur la similarité sémantique et l’extraction d’information fine. L’équipe a participé uniquement à la tâche 3 : “extraction d’information”. Nous avons utilisé une cascade de CRF pour annoter les différentes informations à repérer. Nous nous sommes concentrés sur la question de l’imbrication des entités et de la pertinence d’un type d’entité pour apprendre à reconnaître un autre. Nous avons également testé l’utilisation d’une ressource externe, MedDRA, pour améliorer les performances du système et d’un pipeline plus complexe mais ne gérant pas l’imbrication des entités. Nous avons soumis 3 runs et nous obtenons en moyenne sur toutes les classes des F-mesures de 0,64, 0,65 et 0,61.


DEFT 2020 – Extraction d’information fine dans les données cliniques : terminologies spécialisées et graphes de connaissance



DEFT 2020 – Extraction d’information fine dans les données cliniques : terminologies spécialisées et graphes de connaissance
Thomas Lemaitre, Camille Gosset, Mathieu Lafourcade, Namrata Patel and Guilhem Mayoral
This paper presents our rule-based approach for fine-grained information extraction in clinical data, submitted in reponse to Task 3 at the DEFT 2020 evaluation campaign. We design (1) a dedicated medical terminology from existing medical references and (2) a knowledge graph based on the semantically rich knowlege base – JeuxDeMots.





Calcul de similarité entre phrases : quelles mesures et quels descripteurs ?



Calcul de similarité entre phrases : quelles mesures et quels descripteurs ?
Davide Buscaldi, Ghazi Felhi, Dhaou Ghoul, Joseph Le Roux, Gaël Lejeune and Xudong Zhang
Cet article présente notre participation à l’édition 2020 du Défi Fouille de Textes DEFT et plus exactement aux deux tâches ayant trait à la similarité entre phrases. Dans notre travail nous nous sommes intéressé à deux questions: celle du choix de la mesure du similarité d’une part et celle du choix des opérandes sur lesquelles se porte la mesure de similarité.
Nous avons notamment étudié la question de savoir s’il fallait utiliser des mots ou des chaînes de caractères (mots ou non-mots). Nous montrons d’une part que la similarité de bray-curtis est significativement plus efficace que la similarité cosinus et d’autre part que le calcul de similarité sur des chaînes de caractères est plus efficace que le même calcul sur des mots.