FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français



FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français
Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier et Didier Schwab
Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été démontrée récemment pour l’anglais. Dans cet article, nous présentons et partageons FlauBERT, un ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de complexité différente sont entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici.



Sur l’impact des contraintes structurelles pour l’analyse en dépendances profondes fondée sur les graphes

Sur l’impact des contraintes structurelles pour l’analyse en dépendances profondes fondée sur les graphes
Caio Corro
Les algorithmes existants pour l’analyse en dépendances profondes fondée sur des graphes capables de garantir la connexité des structures produites ne couvrent pas les corpus du français.
Nous proposons un nouvel algorithme qui couvre l’ensemble des structures possibles.
Nous nous évaluons sur les corpus français FTB et Sequoia et observons un compromis entre la production de structures valides et la qualité des analyses.