Typologie de chaînes de référence à la lumière de corpus annotés diversifiés
Silvia Federzoni
Ce projet de thèse a pour objectif la définition d’une typologie des chaînes de référence basée sur une description systématique des enchaînements des expressions référentielles dans différents corpus annotés en chaînes de référence.
Bien que des ressources de grande taille soient disponibles, aussi bien pour l’anglais que pour le français écrit, elles n’ont pas permis, jusqu’à présent, de mettre au jour une définition complète et systèmatique des chaînes de référence. En effet, l’hétérogénéité qui caractérise ces ressources, aussi bien en termes de modèles linguistiques que de choix d’annotation, rend les résultats obtenus difficilement comparables. De plus, les chaînes de référence constituent un phnomène complexe, dont l’étude nécessite la prise en compte de plusieurs indices linguistiques. Par conséquent, aucune étude à large échelle, notamment en français, n’a proposé une description systématique des chaînes de référence dans leur complexité et complétude.
Dans ce contexte, un premier objectif de la thèse est de proposer une description systématique des enchaînements des expressions référentielles dans le but de fournir une typologie des chaînes de référence. Pour y parvenir, il s’agit préalablement d’unifier les corpus annotés. À partir des résultats obtenus nous fournirons une description, la plus exhaustive possible de la complexité et de la variété des CR. À partir de cette typologie la thèse proposera une étude contrastive entre différents types de textes ainsi qu’une description systématique qui puisse être exploitée pour l’amélioration d’un modèle de prédiction automatique des CR.
Bien que des ressources de grande taille soient disponibles, aussi bien pour l’anglais que pour le français écrit, elles n’ont pas permis, jusqu’à présent, de mettre au jour une définition complète et systèmatique des chaînes de référence. En effet, l’hétérogénéité qui caractérise ces ressources, aussi bien en termes de modèles linguistiques que de choix d’annotation, rend les résultats obtenus difficilement comparables. De plus, les chaînes de référence constituent un phnomène complexe, dont l’étude nécessite la prise en compte de plusieurs indices linguistiques. Par conséquent, aucune étude à large échelle, notamment en français, n’a proposé une description systématique des chaînes de référence dans leur complexité et complétude.
Dans ce contexte, un premier objectif de la thèse est de proposer une description systématique des enchaînements des expressions référentielles dans le but de fournir une typologie des chaînes de référence. Pour y parvenir, il s’agit préalablement d’unifier les corpus annotés. À partir des résultats obtenus nous fournirons une description, la plus exhaustive possible de la complexité et de la variété des CR. À partir de cette typologie la thèse proposera une étude contrastive entre différents types de textes ainsi qu’une description systématique qui puisse être exploitée pour l’amélioration d’un modèle de prédiction automatique des CR.