FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français



FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français
Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier et Didier Schwab
Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été démontrée récemment pour l’anglais. Dans cet article, nous présentons et partageons FlauBERT, un ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de complexité différente sont entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici.



Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l’hétérogénéité des données d’entrainement



Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l’hétérogénéité des données d’entrainement
Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Benoît Sagot and Djamé Seddah
Les modèles de langue contextualisés et neuronaux sont désormais omniprésents en traitement de la langue. Jusqu’à récemment, la plupart des modèles disponibles ont été entrainés soit sur des données en anglais, soit sur la concaténation de données dans plusieurs langues. L’utilisation pratique de ces modèles — dans toutes les langues sauf l’anglais — était donc limitée. La sortie récente de plusieurs modèles monolingues fondés sur Bert en particulier pour le français a démontré l’interêt des ces modèles en établissant l’état de l’art pour toutes les tâches évaluées.
Dans cet article, à partir d’expériences menées sur CamemBERT (Martin et al, 2019) nous montrons que l’utilisation de données à haute variabilité est préférable à des données plus uniformes. De façon plus surprenante encore, nous montrons qu’une utilisation d’un relativement petit ensemble de données web (4Go) donne des résultats aussi bons que ceux obtenus à partir d’ensembles de données de deux ordres de grandeurs supérieurs (130+Go).





Qu’apporte BERT à l’analyse syntaxique en constituants discontinus ? Une suite de tests pour évaluer les prédictions de structures syntaxiques discontinues en anglais



Qu’apporte BERT à l’analyse syntaxique en constituants discontinus ? Une suite de tests pour évaluer les prédictions de structures syntaxiques discontinues en anglais
Maximin Coavoux
Cet article propose d’analyser les apports d’un modèle de langue pré-entraîné de type BERT (bidirectional encoder representations from transformers) à l’analyse syntaxique en constituants discontinus en anglais (PTB, Penn Treebank). Pour cela, nous réalisons une comparaison des erreurs d’un analyseur syntaxique dans deux configurations (i) avec un accès à BERT affiné lors de l’apprentissage (ii) sans accès à BERT (modèle n’utilisant que les données d’entraînement). Cette comparaison s’appuie sur la construction d’une suite de tests que nous rendons publics. Nous annotons les phrases de la section de validation du Penn Treebank avec des informations sur les phénomènes syntaxiques à l’origine des discontinuités. Ces annotations nous permettent de réaliser une évaluation fine des capacités syntaxiques de l’analyseur pour chaque phénomène cible. Nous montrons que malgré l’apport de BERT à la qualité des analyses (jusqu’à 95 en F 1 ), certains phénomènes complexes ne sont toujours pas analysés de manière satisfaisante.



ETeRNAL-1 : Pratiques d’évaluation en ASR et biais de performance



Pratiques d’évaluation en ASR et biais de performance
Mahault Garnerin, Solange Rossato et Laurent Besacier
Nous proposons une réflexion sur les pratiques d’évaluation des systèmes de reconnaissance automatique de la parole (ASR). Après avoir défini la notion de discrimination d’un point de vue légal et la notion d’équité dans les systèmes d’intelligence artificielle, nous nous intéressons au pratiques dans les grandes campagnes d’évaluation. La variabilité de la parole et plus particulièrement celle de l’individu n’est pas prise en compte dans les protocoles actuels rendant impossible l’étude de possible biais dans les systèmes.




ETeRNAL-2 : Comment arpenter sans mètre ?



Comment arpenter sans mètre : les scores de résolution de chaînes de coréférences sont-ils des métriques ?
Adam Lion-Bouton, Loïc Grobol, Jean-Yves Antoine, Sylvie Billot et Anaïs Lefeuvre-Halftermeyer
Cet article présente un travail qui consiste à étudier si les scores les plus utilisés pour l’évaluation de la résolution des coréférences constituent des métriques de similarité normalisées. En adoptant une démarche purement expérimentale, nous avons vérifié si les scores MUC, B3, CEAF, BLANC, LEA et le meta-score CoNLL respectent les bonne propriétés qui définissent une telle métrique. Notre étude montre que seul le score CEAFm est potentiellement une métrique de similarité normalisée.