Similarité sémantique entre phrases : apprentissage par transfert interlingue



Similarité sémantique entre phrases : apprentissage par transfert interlingue
Charles Teissèdre, Thiziri Belkacem and Maxime Arens
Dans cet article, nous décrivons une approche exploratoire pour entraîner des modèles de langue et résoudre des tâches d’appariement entre phrases issues de corpus en français et relevant du domaine médical. Nous montrons que, dans un contexte où les données d’entraînement sont en nombre restreint, il peut être intéressant d’opérer un apprentissage par transfert, d’une langue dont nous disposons de plus de ressources pour l’entraînement, vers une langue cible moins dotée de données d’entraînement (le français dans notre cas). Les résultats de nos expérimentations montrent que les modèles de langue multilingues sont capables de transférer des représentations d’une langue à l’autre de façon efficace pour résoudre des tâches de similarité sémantique telles que celles proposées dans le cadre de l’édition 2020 du Défi fouille de texte (DEFT).
Text mining challenge: semantic similarity and fine information extraction. In this paper, we describe an exploratory approach to train language models and solve sentence-matching tasks from French corpora in the medical field. We show that, in a context where training data are limited, it may be interesting to transfer learning from a language with more training resources to a target language with less training data (French in our case). The results of our experiments show that multilingual language models are able to transfer representations from one language to another efficiently to solve semantic similarity, tasks such as those proposed in the 2020 edition of the Text Mining Challenge (DEFT).