DeFT

Défi Fouille de Textes@JEP-TALN 2020

Similarité sémantique et extraction d’information fine

Dans la continuité de DEFT 2019, l’édition 2020 du défi fouille de textes (DEFT 2020) continue d’explorer les cas cliniques rédigés en français. Cette nouvelle édition porte sur l’extraction d’information fine autour d’une douzaine de catégories (à l’image des campagnes internationales i2b2 2009, 2012 et 2014, ou SemEval 2014). En dehors du domaine clinique, nous proposons également deux nouvelles tâches sur la similarité sémantique entre phrases.

Informations globales sur le corpus

L’un des corpus du défi provient d’un ensemble plus vaste composé de cas cliniques, porteur d’annotations plus complètes [1]. Les cas cliniques couvrent différentes spécialités médicales (cardiologie, urologie, oncologie, obstétrique, pulmonaire, gasto-entérologie, etc.). Ils décrivent des cas qui se sont produits dans différents pays francophones (France, Belgique, Suisse, Canada, pays africains, pays tropicaux, etc.). Le deuxième corpus utilisé provient du projet CLEAR [2]. Le projet CLEAR se compose de trois sous-corpus (articles d’encyclopédie, notices de médicaments, et résumés Cochrane) dont le contenu est comparable. Chaque corpus fournit des versions techniques et simplifiées sur un sujet donné en français. Les phrases proposées dans les tâches 1 et 2 proviennent de ce corpus. Les annotations de référence ont fait l’objet d’un consensus après une double annotation indépendante.

[1] N Grabar, V Claveau, C Dalloux. CAS: French Corpus with Clinical Cases. LOUHI 2018, p. 1-7

[2] N Grabar, R Cardon. CLEAR — Simple Corpus for Medical French. ATA 2018, p 1-7

Accès aux données

L’accès aux données ne sera rendu possible qu’après signature d’un accord d’utilisation des données DEFT 2020 par l’ensemble des membres de l’équipe. Les participants sont libres de participer à une ou plusieurs tâches. En accédant aux données, ils s’engagent moralement à participer jusqu’au bout (soumettre des résultats et présenter les résultats pendant l’atelier).

Description des tâches

  • Tâche 1 : identifier le degré de similarité entre paires de phrases parallèles et non-parallèles sur plusieurs domaines
  • Tâche 2 : identifier les phrases parallèles possible pour une phrase source
  • Tâche 3 : extraction d’information

Pour plus d’informations, voir la page de l’atelier (https://deft.limsi.fr/2020/).