TreeTagger entraîné avec des données modernes face au Critical Pronouncing Dictionary de J. Walker



TreeTagger entraîné avec des données modernes face au Critical Pronouncing Dictionary de J. Walker
Dao Thauvin, Blanche Miret, François Huang and Preethi Srinivasan
Peut-on utiliser un outil d’étiquetage morpho-syntaxique pour mesurer l’évolution d’une langue à travers les siècles, et notamment reconnaître les mots devenus obsolètes? Dans quelle mesure cet outil, fondé sur l’apprentissage machine, arrive-t-il à s’adapter à une version plus ancienne du langage qu’il a été entrainé à reconnaître ? C’est pour répondre à ces interrogations que nous avons appliqué TreeTagger, exercé à identifier et catégoriser les mots de l’anglais moderne, sur le Critical Pronouncing Dictionary de John Walker datant de 1791. Les résultats nous permettent par exemple de retrouver la différence d’évolution attendue entre les différentes catégories grammaticales de la langue : les prépositions étant sujettes à peu de transformations, la reconnaissance de celles du 18e siècle ne pose pas de problème ; celle des noms communs ou adjectifs est moins évidente. Quant à la détection de l’obsolescence des mots, la majorité de ceux se voyant attribuer “unknown” comme lemme dans le résultat ne sont effectivement plus utilisés aujourd’hui. TreeTagger semble alors être une piste d’outil dans la mesure d’évolution d’un langage.


From chatbot to personal assistant.



From chatbot to personal assistant.
Sawssen Hadded and Emma Jeannette
We will discuss the various states of chatbot, from their early versions to their different ameliorations and to the modern personal assistants that uses chatbots to communicate with the user. A chatbot is a computer program that simulates a human conversation whether its by text or voice command (or both). Eliza is known as one of the first chatbot that existed. The project was developed by Joseph Weizenbaum between 1964 and 1966 at the MIT Artificial Intelligence Laboratory. Eliza functions as a psychotherapist: designed for the user to talk about their problem. Eliza reformulates the sentences of the user into a question to keep the conversation going – for example,
Emma – I want to talk about my family.
Eliza – What would you do if you got to talk about your family?
– the program also reacts to keywords and uses premade sentences using the words of the “patient”. Because of her almost “human like” way of answering Eliza could attempt the Turing test. Many new chatbots have been programmed since Eliza, even getting better and better through the years. While Eliza was a revolution at the time compared to the new machines it has a lot of limitations. It is impossible to have a linear conversation with ELIZA, she obviously does not remember previous conversation and does not use previous information to keep the conversation going, she relies on the user. If she cannot turn your answer into a question she will use pre-made sentences “Can you elaborate about that?” “Let’s change focus a bit… Talk to me about your family” or she’ll just answer “I see” cutting the conversation. ALICE, another chatbot, was very inspired by ELIZA, and became one the best performing chatbots of its category winning the Loebner prize three time in 2000, 2001 and 2004. Alice uses an heuristic pattern matching rule to the human’s input, however it could not pass the Turing test as it was deemed “too mechanical“ . Clever bot is a chatter bot web application. Siri is a virtual assistant that answers vocal human commands.
Data: We will analyze different chatbots, to see their limitations throughout the years, but also how they were improved to seem almost human like, even gaining new features such as vocal recognition or a humanoid body and to see if it is possible to code a chatbot to the point where you cannot distinguish the robot from the human being.
Method: To put the chatbot to the test we used very similar sentences if not the same on each chatbot to see how their output could differ. First we presented ourselves to the chatbots using a fake name and then later on ask them to repeat our name to see if they stored it in their database, we also used sentences with orthographic mistakes, modern slang, telling a joke and asking them if they can give us the time or the weather in Paris. During the conversation we also tried to see if the conversation could last.
Results: Chatbots underwent an increasing evolution over the years. What started has simple computer program has now evolved into personal assistants, capable of understanding and processing voices inputs. Chatbots are now capable of having full conversation with humans beings that does not seem irrelevant, they can now gather information about the user and use them later in the conversation. They have access to even more data than they use to in order to help the user.
With the new personal assistants the user does not even have to type out their commands, the assistant now understand voice commands and can take actions in accordance with the users.
We are also going towards a more futuristic type of chatbot/personal assistant with chatbots that now can imitate almost perfectly human conversations: Google is now developing an Al system that can engage into a conversation with a real human being.
The system is directed towards making appointments, and is made to be as natural as possible so that the person on the other side of the phone does not have to adapt to a machine. However it is trained to carry on conversation in certain domain and cannot carry out general conversation yet, ‘Duplex can only carry out natural conversations after being deeply trained in such domains. It cannot carry out general conversations’.


Narrative Summarization



Narrative Summarization
Claude Cunha, Guillaume Le Garrec and Nicolas Ballier
This poster explains how we tried to create an extractive-based summary relying on a set of features for the selection of sentences.


Rap and Text generation : How a rap text can be generated considering the metrical, and lexical questions

Rap and Text generation : How a rap text can be generated considering the metrical, and lexical questions
Perdriau and Partouche
A large part of the previous studies on the generation of text have as basis a Neural network, especially Recurrent Neural Networks (RNN): when a Neural Network is a circuit of artificial neurons made to solve artificial intelligence (AI) problems, a RNN, still composed of Neural Networks, can remember them because they are recurrent but encounters some limits. This is why the LSTM model appears to be more effective within the scope of text generation : it has the possibility to correct the vanishing gradient problem of the RNN and thus learning what to remember and what to forget. An interesting work was made on the use of ghostwriting through LSTM : the goal is to give the impression that a rapper has produced a new song, by reproducing his style of writing.
One of the main exercices we had to perfom was writing a model in Python, using the TensorFlow library and a RNN, that would take into account our needs. In it, we have added the CMU Pronouncing Dictionnary, allowing us to read the generated text produced with the good accents, considering the word’s syllable(s) and the metric of the setence, the lexical stress playing also a role in the accentuation of words. Then, we trained the model on a computer for about 113.000 iterations.
In the generated verses, we can observe a important quantity of nonsensical words, as in the iteration n°1000 : “kidsiin”, “throuictifing”, “griends” for examples. Then, the CMU Pronouncing Dictionary was not really useful for their pronunciation because it did not recognize these words, being non listed. The more we trained our model, the more the produced text were meaningful. The final iteration completely illustrate this fact… The poster will discuss the output productions of the LSTM. The project was supervised by Nicolas Ballier and Jean-Baptiste Yunès at Université de Paris

Comparaison de méthodes d’extraction de mots-clés non supervisées pour les disciplines des sciences humaines et sociales



Comparaison de méthodes d’extraction de mots-clés non supervisées pour les disciplines des sciences humaines et sociales
Alaric Tabaries
Accéléré par l’émergence de la voie verte, la quantité d’information scientifique disponible en ligne augmente à un rythme sans précédent. Ce phénomène rend le processus de veille documentaire tant complexe que chrono-phage. C’est dans ce contexte que l’extraction d’information se pose en tant que service support au pré-traitement de la sélection documentaire. En effet, les mots-clés, qui représentent les sujets principaux traités dans un document, sont particulièrement utiles pour distinguer les ressources intéressantes dans un ensemble de documents important. Cependant, très peu en sont pourvus. L’extraction automatique de mots-clés permet de remédier à ce problème et montre d’ores et déjà des résultats satisfaisants sur des corpus de référence. Il a cependant été établi que certaines méthodes d’extraction performent mieux que d’autres pour les productions dans les disciplines des Sciences Humaines et Sociales. Nous proposons donc de mettre au point une expérimentation sur des jeux de données réels issus de publications identifiées sur la plateforme HAL en comparant les résultats selon les disciplines des publications afin d’identifier les méthodes d’extraction non supervisées qui performent le mieux pour servir un outil veille répondant au problème de surcharge informationnelle.


TreeTagger entraîné avec le Critical Pronouncing Dictionary de J. Walker face aux textes modernes

TreeTagger entraîné avec le Critical Pronouncing Dictionary de J. Walker face aux textes modernes
Dao Thauvin, Blanche Miret, François Huang and Preethi Srinivasan
TreeTagger est un outil moderne d’annotation de texte, par des lemmes et des catégories grammaticales. L’objectif de cette recherche est de déterminer si cet outil est capable d’assimiler les catégories grammaticales des phrases du 18ème siècle. Pour ce faire, nous avons utilisé le Critical Pronouncing Dictionary de John Walker (1791) afin de récupérer des catégories grammaticales datant du 18ème siècle des différents mots présents dans la langue anglaise et ainsi entrainer TreeTagger. Nous avons laissé notre outil analyser certains textes modernes provenant du Brown Corpus de la bibliothèque NLTK et une partie du dictionnaire de John Walker. Nous aboutissons à une précision de 34% en moyenne alors que la précision avec les tags présent dans le Brown Corpus est de 93%, ce qui nous amène à penser que TreeTagger n’est pas adapté à l’annotation de texte avec des tags du 18 siècle. Cependant, l’entrainement de TreeTagger et les expériences ont été effectué sur une faible quantité de données, et notre méthode pour utiliser les tags du 18ème nécessite une traduction des tags du 18ème siècle en tags de Brown Corpus. Nous perdons donc certains tags spécifiques du dictionnaire de Walker. En améliorant ces aspects, les résultats peuvent différer.

Évaluation des annotations par des mesures d’accord inter-annotateurs

Évaluation des annotations par des mesures d’accord inter-annotateurs
Anaëlle Baledent
Nous présentons dans ce descriptif notre sujet de thèse portant sur l’évaluation des annotations par des mesures d’accord inter-annotateurs. Ces mesures permettent d’établir, à partir d’annotations manuelles multiples, des corpus de référence, dont leur constitution est un enjeu pour le Traitement Automatique des Langues. L’objectif de cette thèse est notamment de conseiller et d’outiller les chercheurs sur les mesures d’accord inter-annotateurs, afin d’améliorer la qualité des annotations de référence.



Cette vidéo peut être visionnée en plain écran ici



Typologie de chaînes de référence à la lumière de corpus annotés diversifiés

Typologie de chaînes de référence à la lumière de corpus annotés diversifiés
Silvia Federzoni
Ce projet de thèse a pour objectif la définition d’une typologie des chaînes de référence basée sur une description systématique des enchaînements des expressions référentielles dans différents corpus annotés en chaînes de référence.
Bien que des ressources de grande taille soient disponibles, aussi bien pour l’anglais que pour le français écrit, elles n’ont pas permis, jusqu’à présent, de mettre au jour une définition complète et systèmatique des chaînes de référence. En effet, l’hétérogénéité qui caractérise ces ressources, aussi bien en termes de modèles linguistiques que de choix d’annotation, rend les résultats obtenus difficilement comparables. De plus, les chaînes de référence constituent un phnomène complexe, dont l’étude nécessite la prise en compte de plusieurs indices linguistiques. Par conséquent, aucune étude à large échelle, notamment en français, n’a proposé une description systématique des chaînes de référence dans leur complexité et complétude.
Dans ce contexte, un premier objectif de la thèse est de proposer une description systématique des enchaînements des expressions référentielles dans le but de fournir une typologie des chaînes de référence. Pour y parvenir, il s’agit préalablement d’unifier les corpus annotés. À partir des résultats obtenus nous fournirons une description, la plus exhaustive possible de la complexité et de la variété des CR. À partir de cette typologie la thèse proposera une étude contrastive entre différents types de textes ainsi qu’une description systématique qui puisse être exploitée pour l’amélioration d’un modèle de prédiction automatique des CR.