Réseaux de neurones pour la résolution d’analogies entre phrases en traduction automatique par l’exemple

Réseaux de neurones pour la résolution d’analogies entre phrases en traduction automatique par l’exemple
Valentin Taillandier, Liyan Wang and Yves Lepage
Cet article propose un modèle de réseau de neurones pour la résolution d’équations analogiques au niveau sémantique et entre phrases dans le cadre de la traduction automatique par l’exemple. Son originalité réside dans le fait qu’il fusionne les deux approches, directe et indirecte, de la traduction par l’exemple.

Représentation sémantique des familles dérivationnelles au moyen de frames morphosémantiques

Représentation sémantique des familles dérivationnelles au moyen de frames morphosémantiques
Daniele Sanacore, Nabil Hathout and Fiammetta Namer
L’article présente un nouveau formalisme de représentation des relations morphologiques dérivation-nelles inspiré de la sémantique des frames. Dans ce formalisme, la description morphosémantiqueest réalisée au niveau de la famille dérivationnelle au moyen de frames morphosémantiques danslesquels les lexèmes sont interdéfinis les uns relativement aux autres. Les frames morphosémantiquespermettent par ailleurs de rendre compte de la structure paradigmatique par l’alignement des sériesde lexèmes qui se trouvent dans les mêmes oppositions de sens. La seconde partie de l’article estconsacrée au type de données, notamment lexicographiques, qui pourraient être utilisées pour produireautomatiquement ces représentations.

FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français



FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français
Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier et Didier Schwab
Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été démontrée récemment pour l’anglais. Dans cet article, nous présentons et partageons FlauBERT, un ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de complexité différente sont entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici.



Sur l’impact des contraintes structurelles pour l’analyse en dépendances profondes fondée sur les graphes

Sur l’impact des contraintes structurelles pour l’analyse en dépendances profondes fondée sur les graphes
Caio Corro
Les algorithmes existants pour l’analyse en dépendances profondes fondée sur des graphes capables de garantir la connexité des structures produites ne couvrent pas les corpus du français.
Nous proposons un nouvel algorithme qui couvre l’ensemble des structures possibles.
Nous nous évaluons sur les corpus français FTB et Sequoia et observons un compromis entre la production de structures valides et la qualité des analyses.

Classification de relations pour l’intelligence économique et concurrentielle

Classification de relations pour l’intelligence économique et concurrentielle
Hadjer Khaldi, Amine Abdaoui, Farah Benamara, Grégoire Sigel and Nathalie Aussenac-Gilles
L’extraction de relations est une tâche d’extraction d’information qui permet de détecter les liens sémantiques reliant des entités. Cette tâche a fait l’objet de nombreux travaux visant à extraire des relations génériques comme l’hyperonymie ou spécifiques comme des relations entre gènes et protéines. Dans cet article, nous nous intéressons aux relations économiques entre deux entités nommées de type organisation à partir de textes issus du web. Ce type de relation, encore peu étudié dans la littérature, a pour but l’identification des liens entre les acteurs d’un secteur d’activité afin d’analyser leurs écosystèmes économiques.
Nous présentons BizRel, le premier corpus français annoté en relations économiques ainsi qu’une approche supervisée à base de différentes architectures neuronales pour la classification de ces relations. L’évaluation de ces modèles montre des résultats très encourageants, ce qui est un premier pas vers l’intelligence économique et concurrentielle à partir de textes pour le français.


Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l’hétérogénéité des données d’entrainement



Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l’hétérogénéité des données d’entrainement
Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Benoît Sagot and Djamé Seddah
Les modèles de langue contextualisés et neuronaux sont désormais omniprésents en traitement de la langue. Jusqu’à récemment, la plupart des modèles disponibles ont été entrainés soit sur des données en anglais, soit sur la concaténation de données dans plusieurs langues. L’utilisation pratique de ces modèles — dans toutes les langues sauf l’anglais — était donc limitée. La sortie récente de plusieurs modèles monolingues fondés sur Bert en particulier pour le français a démontré l’interêt des ces modèles en établissant l’état de l’art pour toutes les tâches évaluées.
Dans cet article, à partir d’expériences menées sur CamemBERT (Martin et al, 2019) nous montrons que l’utilisation de données à haute variabilité est préférable à des données plus uniformes. De façon plus surprenante encore, nous montrons qu’une utilisation d’un relativement petit ensemble de données web (4Go) donne des résultats aussi bons que ceux obtenus à partir d’ensembles de données de deux ordres de grandeurs supérieurs (130+Go).





Traduction automatique pour la normalisation du français du XVIIe siècle



Traduction automatique pour la normalisation du français du XVIIe siècle
Simon Gabay and Loïc Barrault
L’étude des états de langue anciens se heurte à un double problème : d’une part la distance d’avec l’orthographe actuelle, qui empêche de recourir aux solutions standards de TAL, et d’autre part l’instabilité des systèmes graphiques, qui complexifie l’entraînement de solutions directement sur le texte original. Reprenant ce problème d’un point de vue des humanités numériques, nous partons du raisonnement philologique qui sous-tend la création du corpus d’entraînement, avant de recourir aux méthodes traditionnelles de TAL pour comparer deux systèmes de traduction automatique (statistique et neuronale) et offrir un outil fonctionnel pour la normalisation du français classique qui corresponde aux besoins des philologues.




Analyse automatique en cadres sémantiques pour l’apprentissage de modèles de compréhension de texte



Analyse automatique en cadres sémantiques pour l’apprentissage de modèles de compréhension de texte
Gabriel Marzinotto, Delphine Charlet, Géraldine Damnati and Frédéric Béchet
Cet article propose une évaluation intrinsèque et extrinsèque d’un modèle d’analyse automatique en cadres sémantiques (Frames). Le modèle proposé est un modèle état de l’art à base de GRU bi-directionnel, enrichi par l’utilisation d’embeddings contextuels. L’amélioration obtenue est observée par le prisme d’un typage des arguments (Frame Elements) sous la forme d’une question prototypique à laquelle ils sont susceptibles de répondre. L’évaluation extrinsèque quant à elle repose sur l’exploitation de l’analyse en cadres sémantiques pour la génération d’un corpus d’apprentissage de triplets (question, paragraphe, réponse) pour une tâche de compréhension de lecture. Nous montrons qu’un modèle de compréhension de lecture appris sur un corpus de triplets générés à partir d’un corpus analysé automatiquement présente des performances inférieures de seulement 2.5% en relatif par rapport à un modèle appris sur un corpus de triplets générés à partir d’un corpus analysé manuellement.



Investigation par méthodes d’apprentissage des spécificités langagières propres aux personnes avec schizophrénie



Investigation par méthodes d’apprentissage des spécificités langagières propres aux personnes avec schizophrénie
Maxime Amblard, Chloé Braud, Chuyuan Li, Caroline Demily, Nicolas Franck et Michel Musiol
Nous présentons des expériences visant à identifier automatiquement des patients présentant des symptômes de schizophrénie dans des conversations contrôlées entre patients et psychothérapeutes. Nous fusionnons l’ensemble des tours de parole de chaque interlocuteur et entraînons des modèles de classification utilisant des informations lexicales, morphologiques et syntaxiques. Cette étude est la première du genre sur le français et obtient des résultats comparables à celles sur l’anglais. Nos premières expériences tendent à montrer que la parole des personnes avec schizophrénie se distingue de celle des témoins : le meilleur modèle obtient une exactitude de 93,66 %. Des informations plus riches seront cependant nécessaires pour parvenir à un modèle robuste.


Qu’apporte BERT à l’analyse syntaxique en constituants discontinus ? Une suite de tests pour évaluer les prédictions de structures syntaxiques discontinues en anglais



Qu’apporte BERT à l’analyse syntaxique en constituants discontinus ? Une suite de tests pour évaluer les prédictions de structures syntaxiques discontinues en anglais
Maximin Coavoux
Cet article propose d’analyser les apports d’un modèle de langue pré-entraîné de type BERT (bidirectional encoder representations from transformers) à l’analyse syntaxique en constituants discontinus en anglais (PTB, Penn Treebank). Pour cela, nous réalisons une comparaison des erreurs d’un analyseur syntaxique dans deux configurations (i) avec un accès à BERT affiné lors de l’apprentissage (ii) sans accès à BERT (modèle n’utilisant que les données d’entraînement). Cette comparaison s’appuie sur la construction d’une suite de tests que nous rendons publics. Nous annotons les phrases de la section de validation du Penn Treebank avec des informations sur les phénomènes syntaxiques à l’origine des discontinuités. Ces annotations nous permettent de réaliser une évaluation fine des capacités syntaxiques de l’analyseur pour chaque phénomène cible. Nous montrons que malgré l’apport de BERT à la qualité des analyses (jusqu’à 95 en F 1 ), certains phénomènes complexes ne sont toujours pas analysés de manière satisfaisante.