Approche supervisée de calcul de similarité sémantique entre paires de phrases



Approche supervisée de calcul de similarité sémantique entre paires de phrases
Khadim Dramé, Gorgoumack Sambe, Ibrahima Diop and Lamine Faty
Ce papier décrit les méthodes que nous avons développées pour participer aux tâches 1 et 2 de l’édition 2020 du défi fouille de textes (DEFT 2020). Pour la première tâche, qui s’intéresse au calcul de scores de similarité sémantique entre paires de phrases, sur une échelle de 0 à 5, une approche supervisée où chaque paire de phrases est représentée par un ensemble d’attributs a été proposée. Des algorithmes classiques d’apprentissage automatique sont ensuite utilisés pour entrainer les modèles. Différentes mesures de similarité textuelle sont explorées et les plus pertinentes sont combinées pour supporter nos méthodes. Différentes combinaisons ont été testées et évaluées sur les données de test du DEFT 2020. Notre meilleur système qui s’appuie sur un modèle Random Forest a obtenu les meilleures performances sur la première tâche avec une EDRM de 0,8216.





DEFT 2020 : détection de similarité entre phrases et extraction d’information



DEFT 2020 : détection de similarité entre phrases et extraction d’information
Mike Tapi Nzali
Ce papier décrit la participation de Reezocar à la campagne d’évaluation DEFT 2020. Cette seizième édition du challenge a porté sur le calcul de similarité entre phrases et l’extraction d’information fine autour d’une douzaine de catégories dans des textes rédigés en Français. Le challenge propose trois tâches: (i) la première concerne l’identification du degré de similarité entre paires de phrases; (ii) la deuxième concerne l’identification des phrases parallèles possibles pour une phrase source et (iii) la troisième concerne l’extraction d’information.
Nous avons utilisé des méthodes d’apprentissage automatique pour effectuer ces tâches et avons obtenu des résultats satisfaisants sur l’ensemble des tâches.





DOING@DEFT : cascade de CRF pour l’annotation d’entités cliniques imbriquées



DOING@DEFT : cascade de CRF pour l’annotation d’entités cliniques imbriquées
Anne-Lyse Minard, Andréane Roques, Nicolas Hiot, Mirian Halfeld Ferrari Alves and Agata Savary
Cet article présente le système développé par l’équipe DOING pour la campagne d’évaluation DEFT 2020 portant sur la similarité sémantique et l’extraction d’information fine. L’équipe a participé uniquement à la tâche 3 : “extraction d’information”. Nous avons utilisé une cascade de CRF pour annoter les différentes informations à repérer. Nous nous sommes concentrés sur la question de l’imbrication des entités et de la pertinence d’un type d’entité pour apprendre à reconnaître un autre. Nous avons également testé l’utilisation d’une ressource externe, MedDRA, pour améliorer les performances du système et d’un pipeline plus complexe mais ne gérant pas l’imbrication des entités. Nous avons soumis 3 runs et nous obtenons en moyenne sur toutes les classes des F-mesures de 0,64, 0,65 et 0,61.


Investigation par méthodes d’apprentissage des spécificités langagières propres aux personnes avec schizophrénie



Investigation par méthodes d’apprentissage des spécificités langagières propres aux personnes avec schizophrénie
Maxime Amblard, Chloé Braud, Chuyuan Li, Caroline Demily, Nicolas Franck et Michel Musiol
Nous présentons des expériences visant à identifier automatiquement des patients présentant des symptômes de schizophrénie dans des conversations contrôlées entre patients et psychothérapeutes. Nous fusionnons l’ensemble des tours de parole de chaque interlocuteur et entraînons des modèles de classification utilisant des informations lexicales, morphologiques et syntaxiques. Cette étude est la première du genre sur le français et obtient des résultats comparables à celles sur l’anglais. Nos premières expériences tendent à montrer que la parole des personnes avec schizophrénie se distingue de celle des témoins : le meilleur modèle obtient une exactitude de 93,66 %. Des informations plus riches seront cependant nécessaires pour parvenir à un modèle robuste.