TreeTagger entraîné avec des données modernes face au Critical Pronouncing Dictionary de J. Walker



TreeTagger entraîné avec des données modernes face au Critical Pronouncing Dictionary de J. Walker
Dao Thauvin, Blanche Miret, François Huang and Preethi Srinivasan
Peut-on utiliser un outil d’étiquetage morpho-syntaxique pour mesurer l’évolution d’une langue à travers les siècles, et notamment reconnaître les mots devenus obsolètes? Dans quelle mesure cet outil, fondé sur l’apprentissage machine, arrive-t-il à s’adapter à une version plus ancienne du langage qu’il a été entrainé à reconnaître ? C’est pour répondre à ces interrogations que nous avons appliqué TreeTagger, exercé à identifier et catégoriser les mots de l’anglais moderne, sur le Critical Pronouncing Dictionary de John Walker datant de 1791. Les résultats nous permettent par exemple de retrouver la différence d’évolution attendue entre les différentes catégories grammaticales de la langue : les prépositions étant sujettes à peu de transformations, la reconnaissance de celles du 18e siècle ne pose pas de problème ; celle des noms communs ou adjectifs est moins évidente. Quant à la détection de l’obsolescence des mots, la majorité de ceux se voyant attribuer “unknown” comme lemme dans le résultat ne sont effectivement plus utilisés aujourd’hui. TreeTagger semble alors être une piste d’outil dans la mesure d’évolution d’un langage.