Contextualized French Language Models for Biomedical Named Entity Recognition



Contextualized French Language Models for Biomedical Named Entity Recognition
Jenny Copara, Julien Knafou, Nona Naderi, Claudia Moro, Patrick Ruch and Douglas Teodoro
Named entity recognition (NER) is key for biomedical applications as it allows knowledge discovery in free text data. As entities are semantic phrases, their meaning is conditioned to the context to avoid ambiguity. In this work, we explore contextualized language models for NER in French biomedical text as part of the Défi Fouille de Textes challenge. Our best approach achieved an F1-measure of 66% for symptoms and signs, and pathology categories, being top 1 for subtask 1. For anatomy, dose, exam, mode, moment, substance, treatment, and value categories, it achieved an F1-measure of 75% (subtask 2). If considered all categories, our model achieved the best result in the challenge, with an F1-measure of 72%. The use of an ensemble of neural language models proved to be very effective, improving a CRF baseline by up to 28% and a single specialised language model by 4%.





DOING@DEFT : cascade de CRF pour l’annotation d’entités cliniques imbriquées



DOING@DEFT : cascade de CRF pour l’annotation d’entités cliniques imbriquées
Anne-Lyse Minard, Andréane Roques, Nicolas Hiot, Mirian Halfeld Ferrari Alves and Agata Savary
Cet article présente le système développé par l’équipe DOING pour la campagne d’évaluation DEFT 2020 portant sur la similarité sémantique et l’extraction d’information fine. L’équipe a participé uniquement à la tâche 3 : “extraction d’information”. Nous avons utilisé une cascade de CRF pour annoter les différentes informations à repérer. Nous nous sommes concentrés sur la question de l’imbrication des entités et de la pertinence d’un type d’entité pour apprendre à reconnaître un autre. Nous avons également testé l’utilisation d’une ressource externe, MedDRA, pour améliorer les performances du système et d’un pipeline plus complexe mais ne gérant pas l’imbrication des entités. Nous avons soumis 3 runs et nous obtenons en moyenne sur toutes les classes des F-mesures de 0,64, 0,65 et 0,61.