Traduction automatique pour la normalisation du français du XVIIe siècle



Traduction automatique pour la normalisation du français du XVIIe siècle
Simon Gabay and Loïc Barrault
L’étude des états de langue anciens se heurte à un double problème : d’une part la distance d’avec l’orthographe actuelle, qui empêche de recourir aux solutions standards de TAL, et d’autre part l’instabilité des systèmes graphiques, qui complexifie l’entraînement de solutions directement sur le texte original. Reprenant ce problème d’un point de vue des humanités numériques, nous partons du raisonnement philologique qui sous-tend la création du corpus d’entraînement, avant de recourir aux méthodes traditionnelles de TAL pour comparer deux systèmes de traduction automatique (statistique et neuronale) et offrir un outil fonctionnel pour la normalisation du français classique qui corresponde aux besoins des philologues.




Analyse automatique en cadres sémantiques pour l’apprentissage de modèles de compréhension de texte



Analyse automatique en cadres sémantiques pour l’apprentissage de modèles de compréhension de texte
Gabriel Marzinotto, Delphine Charlet, Géraldine Damnati and Frédéric Béchet
Cet article propose une évaluation intrinsèque et extrinsèque d’un modèle d’analyse automatique en cadres sémantiques (Frames). Le modèle proposé est un modèle état de l’art à base de GRU bi-directionnel, enrichi par l’utilisation d’embeddings contextuels. L’amélioration obtenue est observée par le prisme d’un typage des arguments (Frame Elements) sous la forme d’une question prototypique à laquelle ils sont susceptibles de répondre. L’évaluation extrinsèque quant à elle repose sur l’exploitation de l’analyse en cadres sémantiques pour la génération d’un corpus d’apprentissage de triplets (question, paragraphe, réponse) pour une tâche de compréhension de lecture. Nous montrons qu’un modèle de compréhension de lecture appris sur un corpus de triplets générés à partir d’un corpus analysé automatiquement présente des performances inférieures de seulement 2.5% en relatif par rapport à un modèle appris sur un corpus de triplets générés à partir d’un corpus analysé manuellement.



Investigation par méthodes d’apprentissage des spécificités langagières propres aux personnes avec schizophrénie



Investigation par méthodes d’apprentissage des spécificités langagières propres aux personnes avec schizophrénie
Maxime Amblard, Chloé Braud, Chuyuan Li, Caroline Demily, Nicolas Franck et Michel Musiol
Nous présentons des expériences visant à identifier automatiquement des patients présentant des symptômes de schizophrénie dans des conversations contrôlées entre patients et psychothérapeutes. Nous fusionnons l’ensemble des tours de parole de chaque interlocuteur et entraînons des modèles de classification utilisant des informations lexicales, morphologiques et syntaxiques. Cette étude est la première du genre sur le français et obtient des résultats comparables à celles sur l’anglais. Nos premières expériences tendent à montrer que la parole des personnes avec schizophrénie se distingue de celle des témoins : le meilleur modèle obtient une exactitude de 93,66 %. Des informations plus riches seront cependant nécessaires pour parvenir à un modèle robuste.


Qu’apporte BERT à l’analyse syntaxique en constituants discontinus ? Une suite de tests pour évaluer les prédictions de structures syntaxiques discontinues en anglais



Qu’apporte BERT à l’analyse syntaxique en constituants discontinus ? Une suite de tests pour évaluer les prédictions de structures syntaxiques discontinues en anglais
Maximin Coavoux
Cet article propose d’analyser les apports d’un modèle de langue pré-entraîné de type BERT (bidirectional encoder representations from transformers) à l’analyse syntaxique en constituants discontinus en anglais (PTB, Penn Treebank). Pour cela, nous réalisons une comparaison des erreurs d’un analyseur syntaxique dans deux configurations (i) avec un accès à BERT affiné lors de l’apprentissage (ii) sans accès à BERT (modèle n’utilisant que les données d’entraînement). Cette comparaison s’appuie sur la construction d’une suite de tests que nous rendons publics. Nous annotons les phrases de la section de validation du Penn Treebank avec des informations sur les phénomènes syntaxiques à l’origine des discontinuités. Ces annotations nous permettent de réaliser une évaluation fine des capacités syntaxiques de l’analyseur pour chaque phénomène cible. Nous montrons que malgré l’apport de BERT à la qualité des analyses (jusqu’à 95 en F 1 ), certains phénomènes complexes ne sont toujours pas analysés de manière satisfaisante.



Étude des variations sémantiques à travers plusieurs dimensions



Étude des variations sémantiques à travers plusieurs dimensions
Syrielle Montariol and Alexandre Allauzen
Au sein d’une langue, l’usage des mots varie selon deux axes: diachronique (dimension temporelle) et synchronique (variation selon l’auteur, la communauté, la zone géographique… ).
Dans ces travaux, nous proposons une méthode de détection et d’interprétation des variations d’usages des mots à travers ces différentes dimensions. Pour cela, nous exploitons les capacités d’une nouvelle ligne de plongements lexicaux contextualisés, en particulier le modèle BERT. Nous expérimentons sur un corpus de rapports financiers d’entreprises françaises, pour appréhender les enjeux et préoccupations propres à certaines périodes, acteurs et secteurs d’activités.



Approche de génération de réponse à base de transformers



Approche de génération de réponse à base de transformers
Imen Akermi, Johannes Heinecke and Frédéric Herledan
Cet article présente une approche non-supervisée basée sur les modèles Transformer pour la génération du langage naturel dans le cadre des systèmes de question-réponse. Cette approche permettrait de remédier à la problématique de génération de réponse trop courte ou trop longue sans avoir recours à des données annotées.

Génération automatique de définitions pour le français

Génération automatique de définitions pour le français
Timothee Mickus, Mathieu Constant and Denis Paperno
La génération de définitions est une tâche récente qui vise à produire des définitions lexicographiques à partir de plongements lexicaux. Nous remarquons deux lacunes : (i) l’état de l’art actuel ne s’est penché que sur l’anglais et le chinois, et (ii) l’usabilité escomptée en tant que méthode d’évaluation des plongements lexicaux doit encore être vérifiée. Pour y remédier, nous proposons un jeu de données pour la génération de définitions en français, ainsi qu’une évaluation des performances d’un modèle de génération de définition simple selon les plongements lexicaux fournis en entrée.

Analyse de sentiments des vidéos en dialecte algérien



Analyse de sentiments des vidéos en dialecte algérien
Mohamed Amine Menacer, Karima Abidi, Nouha Othman and Kamel Smaïli
La plupart des travaux existant sur l’analyse de sentiments traitent uniquement l’arabe standard moderne, et ne prennent pas en compte les dialectes. Cet article présente un système d’analyse de sentiments des vidéos en dialecte algérien.
Dans ce travail, nous avons deux défis à surmonter, la reconnaissance automatique de la parole pour le dialecte algérien et l’analyse de sentiments du texte reconnu. Le développement du système de reconnaissance automatique de la parole est basé sur un corpus oral restreint. Ce système est amélioré en tirant profit de données acoustiques ayant un impact sur le dialecte algérien, à savoir le l’arabe standard et le français. L’analyse de sentiments est basée sur la détection automatique de la polarité des mots en fonction de leur proximité sémantique avec d’autres mots ayant une polarité prédéterminée.



VerNom : une base de paires morphologiques acquise sur très gros corpus



VerNom : une base de paires morphologiques acquise sur très gros corpus
Alice Missud, Pascal Amsili and Florence Villoing
Alors qu’une part substantielle de la recherche en morphologie dérivationnelle s’intéresse à la compétition qui oppose les suffixations constructrices de noms d’événements à partir de verbes (-age, -ment, -ion, -ure, -ance, -ade, -aison), l’accès à des données en large quantité devient nécessaire pour l’application de méthodes quantitatives. Dans l’optique de réunir des paires de verbes et de noms morphologiquement reliés dans le cadre de ces suffixations rivales, nous présentons VerNom, une base morphologique comprenant 25 857 paires verbe-nom, construite automatiquement à partir d’un corpus massif issu du web.