Réseaux de neurones pour la résolution d’analogies entre phrases en traduction automatique par l’exemple

Réseaux de neurones pour la résolution d’analogies entre phrases en traduction automatique par l’exemple
Valentin Taillandier, Liyan Wang and Yves Lepage
Cet article propose un modèle de réseau de neurones pour la résolution d’équations analogiques au niveau sémantique et entre phrases dans le cadre de la traduction automatique par l’exemple. Son originalité réside dans le fait qu’il fusionne les deux approches, directe et indirecte, de la traduction par l’exemple.

Représentation sémantique des familles dérivationnelles au moyen de frames morphosémantiques

Représentation sémantique des familles dérivationnelles au moyen de frames morphosémantiques
Daniele Sanacore, Nabil Hathout and Fiammetta Namer
L’article présente un nouveau formalisme de représentation des relations morphologiques dérivation-nelles inspiré de la sémantique des frames. Dans ce formalisme, la description morphosémantiqueest réalisée au niveau de la famille dérivationnelle au moyen de frames morphosémantiques danslesquels les lexèmes sont interdéfinis les uns relativement aux autres. Les frames morphosémantiquespermettent par ailleurs de rendre compte de la structure paradigmatique par l’alignement des sériesde lexèmes qui se trouvent dans les mêmes oppositions de sens. La seconde partie de l’article estconsacrée au type de données, notamment lexicographiques, qui pourraient être utilisées pour produireautomatiquement ces représentations.

FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français



FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français
Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier et Didier Schwab
Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été démontrée récemment pour l’anglais. Dans cet article, nous présentons et partageons FlauBERT, un ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de complexité différente sont entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici.



Sur l’impact des contraintes structurelles pour l’analyse en dépendances profondes fondée sur les graphes

Sur l’impact des contraintes structurelles pour l’analyse en dépendances profondes fondée sur les graphes
Caio Corro
Les algorithmes existants pour l’analyse en dépendances profondes fondée sur des graphes capables de garantir la connexité des structures produites ne couvrent pas les corpus du français.
Nous proposons un nouvel algorithme qui couvre l’ensemble des structures possibles.
Nous nous évaluons sur les corpus français FTB et Sequoia et observons un compromis entre la production de structures valides et la qualité des analyses.

Classification de relations pour l’intelligence économique et concurrentielle

Classification de relations pour l’intelligence économique et concurrentielle
Hadjer Khaldi, Amine Abdaoui, Farah Benamara, Grégoire Sigel and Nathalie Aussenac-Gilles
L’extraction de relations est une tâche d’extraction d’information qui permet de détecter les liens sémantiques reliant des entités. Cette tâche a fait l’objet de nombreux travaux visant à extraire des relations génériques comme l’hyperonymie ou spécifiques comme des relations entre gènes et protéines. Dans cet article, nous nous intéressons aux relations économiques entre deux entités nommées de type organisation à partir de textes issus du web. Ce type de relation, encore peu étudié dans la littérature, a pour but l’identification des liens entre les acteurs d’un secteur d’activité afin d’analyser leurs écosystèmes économiques.
Nous présentons BizRel, le premier corpus français annoté en relations économiques ainsi qu’une approche supervisée à base de différentes architectures neuronales pour la classification de ces relations. L’évaluation de ces modèles montre des résultats très encourageants, ce qui est un premier pas vers l’intelligence économique et concurrentielle à partir de textes pour le français.


Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l’hétérogénéité des données d’entrainement



Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l’hétérogénéité des données d’entrainement
Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Benoît Sagot and Djamé Seddah
Les modèles de langue contextualisés et neuronaux sont désormais omniprésents en traitement de la langue. Jusqu’à récemment, la plupart des modèles disponibles ont été entrainés soit sur des données en anglais, soit sur la concaténation de données dans plusieurs langues. L’utilisation pratique de ces modèles — dans toutes les langues sauf l’anglais — était donc limitée. La sortie récente de plusieurs modèles monolingues fondés sur Bert en particulier pour le français a démontré l’interêt des ces modèles en établissant l’état de l’art pour toutes les tâches évaluées.
Dans cet article, à partir d’expériences menées sur CamemBERT (Martin et al, 2019) nous montrons que l’utilisation de données à haute variabilité est préférable à des données plus uniformes. De façon plus surprenante encore, nous montrons qu’une utilisation d’un relativement petit ensemble de données web (4Go) donne des résultats aussi bons que ceux obtenus à partir d’ensembles de données de deux ordres de grandeurs supérieurs (130+Go).