Utiliser les outils CORLI de conversion TEI pour l’analyse de corpus de langage oral



Utiliser les outils CORLI de conversion TEI pour l’analyse de corpus de langage oral
Christophe Parisse and Loïc Liégeois
Le consortium CORLI développe des outils pour faciliter le dépôt, l’interrogation et la réutilisation des corpus oraux. Ces outils libres et open source sont basés sur la TEI comme format commun de partage. Nous présenterons deux outils différents : un outil pour la saisie et l’édition de fichiers de métadonnées et un outil permettant d’intégrer et d’utiliser des corpus de différentes sources de données transcrits dans différents logiciels.





La résolution d’anaphores au-delà de la frontière de la phrase



La résolution d’anaphores au-delà de la frontière de la phrase
Luka Nerima and Eric Wehrli
Cette démonstration présente une extension de nos outils d’analyse syntaxique et d’étiquetage morpho-syntaxique qui prend en compte la résolution d’anaphores pronominales non seulement à l’intérieur d’une phrase, mais également si l’antécédent se trouve dans la phrase précédente. Autant l’analyseur que l’étiqueteur effectuant une analyse syntaxique complète des phrases, ces outils affichent également les fonctions grammaticales des constituants (sujet, objet direct, etc.) et les arguments des verbes. Une version de cette démonstration est disponible sur le Web.



Désidentification de données texte produites dans un cadre de relation client



Désidentification de données texte produites dans un cadre de relation client
Guillaume Dubuisson Duplessis, Elliot Bartholme, Sofiane Kerroua, Mathilde Poulain, Ahès Roulier and Anne-Laure Guénet
Cette démonstration présente une solution performante de désidentification de données texte selon 13 types d’entités nommées et entraînée sur des données issues de la relation client.

Spiderlex et compagnie



Spiderlex et compagnie
Sandrine Ollinger, Alain Polguère, Yannick Chudy and Bruno Gaume
Nous présentons l’instrument de navigation Spiderlex, mis au point pour permettre une exploration dynamique des Réseaux Lexicaux du Français et de l’Anglais (RL-fr et RL-en). Spiderlex est à la fois un outil de visualisation des données lexicales et un instrument de travail pour les lexicographes.

TreeTagger entraîné avec des données modernes face au Critical Pronouncing Dictionary de J. Walker



TreeTagger entraîné avec des données modernes face au Critical Pronouncing Dictionary de J. Walker
Dao Thauvin, Blanche Miret, François Huang and Preethi Srinivasan
Peut-on utiliser un outil d’étiquetage morpho-syntaxique pour mesurer l’évolution d’une langue à travers les siècles, et notamment reconnaître les mots devenus obsolètes? Dans quelle mesure cet outil, fondé sur l’apprentissage machine, arrive-t-il à s’adapter à une version plus ancienne du langage qu’il a été entrainé à reconnaître ? C’est pour répondre à ces interrogations que nous avons appliqué TreeTagger, exercé à identifier et catégoriser les mots de l’anglais moderne, sur le Critical Pronouncing Dictionary de John Walker datant de 1791. Les résultats nous permettent par exemple de retrouver la différence d’évolution attendue entre les différentes catégories grammaticales de la langue : les prépositions étant sujettes à peu de transformations, la reconnaissance de celles du 18e siècle ne pose pas de problème ; celle des noms communs ou adjectifs est moins évidente. Quant à la détection de l’obsolescence des mots, la majorité de ceux se voyant attribuer “unknown” comme lemme dans le résultat ne sont effectivement plus utilisés aujourd’hui. TreeTagger semble alors être une piste d’outil dans la mesure d’évolution d’un langage.


From chatbot to personal assistant.



From chatbot to personal assistant.
Sawssen Hadded and Emma Jeannette
We will discuss the various states of chatbot, from their early versions to their different ameliorations and to the modern personal assistants that uses chatbots to communicate with the user. A chatbot is a computer program that simulates a human conversation whether its by text or voice command (or both). Eliza is known as one of the first chatbot that existed. The project was developed by Joseph Weizenbaum between 1964 and 1966 at the MIT Artificial Intelligence Laboratory. Eliza functions as a psychotherapist: designed for the user to talk about their problem. Eliza reformulates the sentences of the user into a question to keep the conversation going – for example,
Emma – I want to talk about my family.
Eliza – What would you do if you got to talk about your family?
– the program also reacts to keywords and uses premade sentences using the words of the “patient”. Because of her almost “human like” way of answering Eliza could attempt the Turing test. Many new chatbots have been programmed since Eliza, even getting better and better through the years. While Eliza was a revolution at the time compared to the new machines it has a lot of limitations. It is impossible to have a linear conversation with ELIZA, she obviously does not remember previous conversation and does not use previous information to keep the conversation going, she relies on the user. If she cannot turn your answer into a question she will use pre-made sentences “Can you elaborate about that?” “Let’s change focus a bit… Talk to me about your family” or she’ll just answer “I see” cutting the conversation. ALICE, another chatbot, was very inspired by ELIZA, and became one the best performing chatbots of its category winning the Loebner prize three time in 2000, 2001 and 2004. Alice uses an heuristic pattern matching rule to the human’s input, however it could not pass the Turing test as it was deemed “too mechanical“ . Clever bot is a chatter bot web application. Siri is a virtual assistant that answers vocal human commands.
Data: We will analyze different chatbots, to see their limitations throughout the years, but also how they were improved to seem almost human like, even gaining new features such as vocal recognition or a humanoid body and to see if it is possible to code a chatbot to the point where you cannot distinguish the robot from the human being.
Method: To put the chatbot to the test we used very similar sentences if not the same on each chatbot to see how their output could differ. First we presented ourselves to the chatbots using a fake name and then later on ask them to repeat our name to see if they stored it in their database, we also used sentences with orthographic mistakes, modern slang, telling a joke and asking them if they can give us the time or the weather in Paris. During the conversation we also tried to see if the conversation could last.
Results: Chatbots underwent an increasing evolution over the years. What started has simple computer program has now evolved into personal assistants, capable of understanding and processing voices inputs. Chatbots are now capable of having full conversation with humans beings that does not seem irrelevant, they can now gather information about the user and use them later in the conversation. They have access to even more data than they use to in order to help the user.
With the new personal assistants the user does not even have to type out their commands, the assistant now understand voice commands and can take actions in accordance with the users.
We are also going towards a more futuristic type of chatbot/personal assistant with chatbots that now can imitate almost perfectly human conversations: Google is now developing an Al system that can engage into a conversation with a real human being.
The system is directed towards making appointments, and is made to be as natural as possible so that the person on the other side of the phone does not have to adapt to a machine. However it is trained to carry on conversation in certain domain and cannot carry out general conversation yet, ‘Duplex can only carry out natural conversations after being deeply trained in such domains. It cannot carry out general conversations’.


Narrative Summarization



Narrative Summarization
Claude Cunha, Guillaume Le Garrec and Nicolas Ballier
This poster explains how we tried to create an extractive-based summary relying on a set of features for the selection of sentences.