TreeTagger entraîné avec des données modernes face au Critical Pronouncing Dictionary de J. Walker



TreeTagger entraîné avec des données modernes face au Critical Pronouncing Dictionary de J. Walker
Dao Thauvin, Blanche Miret, François Huang and Preethi Srinivasan
Peut-on utiliser un outil d’étiquetage morpho-syntaxique pour mesurer l’évolution d’une langue à travers les siècles, et notamment reconnaître les mots devenus obsolètes? Dans quelle mesure cet outil, fondé sur l’apprentissage machine, arrive-t-il à s’adapter à une version plus ancienne du langage qu’il a été entrainé à reconnaître ? C’est pour répondre à ces interrogations que nous avons appliqué TreeTagger, exercé à identifier et catégoriser les mots de l’anglais moderne, sur le Critical Pronouncing Dictionary de John Walker datant de 1791. Les résultats nous permettent par exemple de retrouver la différence d’évolution attendue entre les différentes catégories grammaticales de la langue : les prépositions étant sujettes à peu de transformations, la reconnaissance de celles du 18e siècle ne pose pas de problème ; celle des noms communs ou adjectifs est moins évidente. Quant à la détection de l’obsolescence des mots, la majorité de ceux se voyant attribuer “unknown” comme lemme dans le résultat ne sont effectivement plus utilisés aujourd’hui. TreeTagger semble alors être une piste d’outil dans la mesure d’évolution d’un langage.


TreeTagger entraîné avec le Critical Pronouncing Dictionary de J. Walker face aux textes modernes

TreeTagger entraîné avec le Critical Pronouncing Dictionary de J. Walker face aux textes modernes
Dao Thauvin, Blanche Miret, François Huang and Preethi Srinivasan
TreeTagger est un outil moderne d’annotation de texte, par des lemmes et des catégories grammaticales. L’objectif de cette recherche est de déterminer si cet outil est capable d’assimiler les catégories grammaticales des phrases du 18ème siècle. Pour ce faire, nous avons utilisé le Critical Pronouncing Dictionary de John Walker (1791) afin de récupérer des catégories grammaticales datant du 18ème siècle des différents mots présents dans la langue anglaise et ainsi entrainer TreeTagger. Nous avons laissé notre outil analyser certains textes modernes provenant du Brown Corpus de la bibliothèque NLTK et une partie du dictionnaire de John Walker. Nous aboutissons à une précision de 34% en moyenne alors que la précision avec les tags présent dans le Brown Corpus est de 93%, ce qui nous amène à penser que TreeTagger n’est pas adapté à l’annotation de texte avec des tags du 18 siècle. Cependant, l’entrainement de TreeTagger et les expériences ont été effectué sur une faible quantité de données, et notre méthode pour utiliser les tags du 18ème nécessite une traduction des tags du 18ème siècle en tags de Brown Corpus. Nous perdons donc certains tags spécifiques du dictionnaire de Walker. En améliorant ces aspects, les résultats peuvent différer.