TreeTagger entraîné avec le Critical Pronouncing Dictionary de J. Walker face aux textes modernes

TreeTagger entraîné avec le Critical Pronouncing Dictionary de J. Walker face aux textes modernes
Dao Thauvin, Blanche Miret, François Huang and Preethi Srinivasan
TreeTagger est un outil moderne d’annotation de texte, par des lemmes et des catégories grammaticales. L’objectif de cette recherche est de déterminer si cet outil est capable d’assimiler les catégories grammaticales des phrases du 18ème siècle. Pour ce faire, nous avons utilisé le Critical Pronouncing Dictionary de John Walker (1791) afin de récupérer des catégories grammaticales datant du 18ème siècle des différents mots présents dans la langue anglaise et ainsi entrainer TreeTagger. Nous avons laissé notre outil analyser certains textes modernes provenant du Brown Corpus de la bibliothèque NLTK et une partie du dictionnaire de John Walker. Nous aboutissons à une précision de 34% en moyenne alors que la précision avec les tags présent dans le Brown Corpus est de 93%, ce qui nous amène à penser que TreeTagger n’est pas adapté à l’annotation de texte avec des tags du 18 siècle. Cependant, l’entrainement de TreeTagger et les expériences ont été effectué sur une faible quantité de données, et notre méthode pour utiliser les tags du 18ème nécessite une traduction des tags du 18ème siècle en tags de Brown Corpus. Nous perdons donc certains tags spécifiques du dictionnaire de Walker. En améliorant ces aspects, les résultats peuvent différer.