Rap and Text generation : How a rap text can be generated considering the metrical, and lexical questions

Rap and Text generation : How a rap text can be generated considering the metrical, and lexical questions
Perdriau and Partouche
A large part of the previous studies on the generation of text have as basis a Neural network, especially Recurrent Neural Networks (RNN): when a Neural Network is a circuit of artificial neurons made to solve artificial intelligence (AI) problems, a RNN, still composed of Neural Networks, can remember them because they are recurrent but encounters some limits. This is why the LSTM model appears to be more effective within the scope of text generation : it has the possibility to correct the vanishing gradient problem of the RNN and thus learning what to remember and what to forget. An interesting work was made on the use of ghostwriting through LSTM : the goal is to give the impression that a rapper has produced a new song, by reproducing his style of writing.
One of the main exercices we had to perfom was writing a model in Python, using the TensorFlow library and a RNN, that would take into account our needs. In it, we have added the CMU Pronouncing Dictionnary, allowing us to read the generated text produced with the good accents, considering the word’s syllable(s) and the metric of the setence, the lexical stress playing also a role in the accentuation of words. Then, we trained the model on a computer for about 113.000 iterations.
In the generated verses, we can observe a important quantity of nonsensical words, as in the iteration n°1000 : “kidsiin”, “throuictifing”, “griends” for examples. Then, the CMU Pronouncing Dictionary was not really useful for their pronunciation because it did not recognize these words, being non listed. The more we trained our model, the more the produced text were meaningful. The final iteration completely illustrate this fact… The poster will discuss the output productions of the LSTM. The project was supervised by Nicolas Ballier and Jean-Baptiste Yunès at Université de Paris

Comparaison de méthodes d’extraction de mots-clés non supervisées pour les disciplines des sciences humaines et sociales



Comparaison de méthodes d’extraction de mots-clés non supervisées pour les disciplines des sciences humaines et sociales
Alaric Tabaries
Accéléré par l’émergence de la voie verte, la quantité d’information scientifique disponible en ligne augmente à un rythme sans précédent. Ce phénomène rend le processus de veille documentaire tant complexe que chrono-phage. C’est dans ce contexte que l’extraction d’information se pose en tant que service support au pré-traitement de la sélection documentaire. En effet, les mots-clés, qui représentent les sujets principaux traités dans un document, sont particulièrement utiles pour distinguer les ressources intéressantes dans un ensemble de documents important. Cependant, très peu en sont pourvus. L’extraction automatique de mots-clés permet de remédier à ce problème et montre d’ores et déjà des résultats satisfaisants sur des corpus de référence. Il a cependant été établi que certaines méthodes d’extraction performent mieux que d’autres pour les productions dans les disciplines des Sciences Humaines et Sociales. Nous proposons donc de mettre au point une expérimentation sur des jeux de données réels issus de publications identifiées sur la plateforme HAL en comparant les résultats selon les disciplines des publications afin d’identifier les méthodes d’extraction non supervisées qui performent le mieux pour servir un outil veille répondant au problème de surcharge informationnelle.


TreeTagger entraîné avec le Critical Pronouncing Dictionary de J. Walker face aux textes modernes

TreeTagger entraîné avec le Critical Pronouncing Dictionary de J. Walker face aux textes modernes
Dao Thauvin, Blanche Miret, François Huang and Preethi Srinivasan
TreeTagger est un outil moderne d’annotation de texte, par des lemmes et des catégories grammaticales. L’objectif de cette recherche est de déterminer si cet outil est capable d’assimiler les catégories grammaticales des phrases du 18ème siècle. Pour ce faire, nous avons utilisé le Critical Pronouncing Dictionary de John Walker (1791) afin de récupérer des catégories grammaticales datant du 18ème siècle des différents mots présents dans la langue anglaise et ainsi entrainer TreeTagger. Nous avons laissé notre outil analyser certains textes modernes provenant du Brown Corpus de la bibliothèque NLTK et une partie du dictionnaire de John Walker. Nous aboutissons à une précision de 34% en moyenne alors que la précision avec les tags présent dans le Brown Corpus est de 93%, ce qui nous amène à penser que TreeTagger n’est pas adapté à l’annotation de texte avec des tags du 18 siècle. Cependant, l’entrainement de TreeTagger et les expériences ont été effectué sur une faible quantité de données, et notre méthode pour utiliser les tags du 18ème nécessite une traduction des tags du 18ème siècle en tags de Brown Corpus. Nous perdons donc certains tags spécifiques du dictionnaire de Walker. En améliorant ces aspects, les résultats peuvent différer.

Évaluation des annotations par des mesures d’accord inter-annotateurs

Évaluation des annotations par des mesures d’accord inter-annotateurs
Anaëlle Baledent
Nous présentons dans ce descriptif notre sujet de thèse portant sur l’évaluation des annotations par des mesures d’accord inter-annotateurs. Ces mesures permettent d’établir, à partir d’annotations manuelles multiples, des corpus de référence, dont leur constitution est un enjeu pour le Traitement Automatique des Langues. L’objectif de cette thèse est notamment de conseiller et d’outiller les chercheurs sur les mesures d’accord inter-annotateurs, afin d’améliorer la qualité des annotations de référence.



Cette vidéo peut être visionnée en plain écran ici



Typologie de chaînes de référence à la lumière de corpus annotés diversifiés

Typologie de chaînes de référence à la lumière de corpus annotés diversifiés
Silvia Federzoni
Ce projet de thèse a pour objectif la définition d’une typologie des chaînes de référence basée sur une description systématique des enchaînements des expressions référentielles dans différents corpus annotés en chaînes de référence.
Bien que des ressources de grande taille soient disponibles, aussi bien pour l’anglais que pour le français écrit, elles n’ont pas permis, jusqu’à présent, de mettre au jour une définition complète et systèmatique des chaînes de référence. En effet, l’hétérogénéité qui caractérise ces ressources, aussi bien en termes de modèles linguistiques que de choix d’annotation, rend les résultats obtenus difficilement comparables. De plus, les chaînes de référence constituent un phnomène complexe, dont l’étude nécessite la prise en compte de plusieurs indices linguistiques. Par conséquent, aucune étude à large échelle, notamment en français, n’a proposé une description systématique des chaînes de référence dans leur complexité et complétude.
Dans ce contexte, un premier objectif de la thèse est de proposer une description systématique des enchaînements des expressions référentielles dans le but de fournir une typologie des chaînes de référence. Pour y parvenir, il s’agit préalablement d’unifier les corpus annotés. À partir des résultats obtenus nous fournirons une description, la plus exhaustive possible de la complexité et de la variété des CR. À partir de cette typologie la thèse proposera une étude contrastive entre différents types de textes ainsi qu’une description systématique qui puisse être exploitée pour l’amélioration d’un modèle de prédiction automatique des CR.

Participation de l’équipe du LIMICS à DEFT 2020



Participation de l’équipe du LIMICS à DEFT 2020
Perceval Wajsbürt, Yoann Taillé, Guillaume Lainé and Xavier Tannier
Nous présentons dans cet article les méthodes conçues et les résultats obtenus lors de notre participa-tion à la tâche 3 de la campagne d’évaluation DEFT 2020, consistant en la reconnaissance d’entitésnommées du domaine médical. Nous proposons deux modèles différents permettant de prendre encompte les entités imbriquées, qui représentent une des difficultés du jeu de données proposées,et présentons les résultats obtenus. Notre meilleur run obtient la meilleure performance parmi lesparticipants, sur l’une des deux sous-tâches du défi.


Approche supervisée de calcul de similarité sémantique entre paires de phrases



Approche supervisée de calcul de similarité sémantique entre paires de phrases
Khadim Dramé, Gorgoumack Sambe, Ibrahima Diop and Lamine Faty
Ce papier décrit les méthodes que nous avons développées pour participer aux tâches 1 et 2 de l’édition 2020 du défi fouille de textes (DEFT 2020). Pour la première tâche, qui s’intéresse au calcul de scores de similarité sémantique entre paires de phrases, sur une échelle de 0 à 5, une approche supervisée où chaque paire de phrases est représentée par un ensemble d’attributs a été proposée. Des algorithmes classiques d’apprentissage automatique sont ensuite utilisés pour entrainer les modèles. Différentes mesures de similarité textuelle sont explorées et les plus pertinentes sont combinées pour supporter nos méthodes. Différentes combinaisons ont été testées et évaluées sur les données de test du DEFT 2020. Notre meilleur système qui s’appuie sur un modèle Random Forest a obtenu les meilleures performances sur la première tâche avec une EDRM de 0,8216.





DEFT 2020 : détection de similarité entre phrases et extraction d’information



DEFT 2020 : détection de similarité entre phrases et extraction d’information
Mike Tapi Nzali
Ce papier décrit la participation de Reezocar à la campagne d’évaluation DEFT 2020. Cette seizième édition du challenge a porté sur le calcul de similarité entre phrases et l’extraction d’information fine autour d’une douzaine de catégories dans des textes rédigés en Français. Le challenge propose trois tâches: (i) la première concerne l’identification du degré de similarité entre paires de phrases; (ii) la deuxième concerne l’identification des phrases parallèles possibles pour une phrase source et (iii) la troisième concerne l’extraction d’information.
Nous avons utilisé des méthodes d’apprentissage automatique pour effectuer ces tâches et avons obtenu des résultats satisfaisants sur l’ensemble des tâches.





Contextualized French Language Models for Biomedical Named Entity Recognition



Contextualized French Language Models for Biomedical Named Entity Recognition
Jenny Copara, Julien Knafou, Nona Naderi, Claudia Moro, Patrick Ruch and Douglas Teodoro
Named entity recognition (NER) is key for biomedical applications as it allows knowledge discovery in free text data. As entities are semantic phrases, their meaning is conditioned to the context to avoid ambiguity. In this work, we explore contextualized language models for NER in French biomedical text as part of the Défi Fouille de Textes challenge. Our best approach achieved an F1-measure of 66% for symptoms and signs, and pathology categories, being top 1 for subtask 1. For anatomy, dose, exam, mode, moment, substance, treatment, and value categories, it achieved an F1-measure of 75% (subtask 2). If considered all categories, our model achieved the best result in the challenge, with an F1-measure of 72%. The use of an ensemble of neural language models proved to be very effective, improving a CRF baseline by up to 28% and a single specialised language model by 4%.