Contextualized French Language Models for Biomedical Named Entity Recognition



Contextualized French Language Models for Biomedical Named Entity Recognition
Jenny Copara, Julien Knafou, Nona Naderi, Claudia Moro, Patrick Ruch and Douglas Teodoro
Named entity recognition (NER) is key for biomedical applications as it allows knowledge discovery in free text data. As entities are semantic phrases, their meaning is conditioned to the context to avoid ambiguity. In this work, we explore contextualized language models for NER in French biomedical text as part of the Défi Fouille de Textes challenge. Our best approach achieved an F1-measure of 66% for symptoms and signs, and pathology categories, being top 1 for subtask 1. For anatomy, dose, exam, mode, moment, substance, treatment, and value categories, it achieved an F1-measure of 75% (subtask 2). If considered all categories, our model achieved the best result in the challenge, with an F1-measure of 72%. The use of an ensemble of neural language models proved to be very effective, improving a CRF baseline by up to 28% and a single specialised language model by 4%.





Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l’hétérogénéité des données d’entrainement



Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l’hétérogénéité des données d’entrainement
Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Benoît Sagot and Djamé Seddah
Les modèles de langue contextualisés et neuronaux sont désormais omniprésents en traitement de la langue. Jusqu’à récemment, la plupart des modèles disponibles ont été entrainés soit sur des données en anglais, soit sur la concaténation de données dans plusieurs langues. L’utilisation pratique de ces modèles — dans toutes les langues sauf l’anglais — était donc limitée. La sortie récente de plusieurs modèles monolingues fondés sur Bert en particulier pour le français a démontré l’interêt des ces modèles en établissant l’état de l’art pour toutes les tâches évaluées.
Dans cet article, à partir d’expériences menées sur CamemBERT (Martin et al, 2019) nous montrons que l’utilisation de données à haute variabilité est préférable à des données plus uniformes. De façon plus surprenante encore, nous montrons qu’une utilisation d’un relativement petit ensemble de données web (4Go) donne des résultats aussi bons que ceux obtenus à partir d’ensembles de données de deux ordres de grandeurs supérieurs (130+Go).