Participation d’EDF R&D à DEFT 2020



Participation d’EDF R&D à DEFT 2020
Danrun Cao, Alexandra Benamar, Manel Boumghar, Meryl Bothua, Lydia Ould Ouali and Philippe Suignard
Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2020. Notre équipe a participé aux trois tâchés proposées : deux tâches sur le calcul de similarité sémantique entre phrases et une tâche sur l’extraction d’information fine autour d’une douzaine de catégories. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des scores au-dessus de la moyenne pour les tâches 1 et 2 et se classe 2e sur la tâche 1. Les méthodes proposées sont facilement transposables à d’autres cas d’application de détection de similarité qui peuvent concerner plusieurs entités du groupe EDF. Notre participation à la tâche 3 nous a permis de tester les avantages et limites de l’outil SpaCy sur l’extraction d’information.


Extraction d’information de spécialité avec un système commercial générique



Extraction d’information de spécialité avec un système commercial générique
Clothilde Royan, Jean-Marc Langé and Zied Abidi
Nous avons participé à la tâche 3 du Défi Fouille de texte 2020, dédiée à l’extraction d’information de spécialité, dans le but de tester notre produit commercial d’extraction d’information, Watson Knowledge Studio (WKS), face à des équipes académiques et industrielles.
Outre la quantité réduite de données d’apprentissage, la nature des annotations des corpus de référence posait des problèmes d’adaptation à notre produit. Aussi avons-nous dû modifier le schéma d’annotation du corpus d’apprentissage, exécuter l’apprentissage, puis appliquer des règles aux résultats obtenus afin d’obtenir des annotations conformes au schéma initial.
Nous avons également appliqué des dictionnaires de spécialité (anatomie, pathologie, etc.) pour injecter de la connaissance du domaine et renforcer les modèles d’apprentissage automatique.
Au final, nos résultats lors de la phase de test se situent dans la moyenne de l’ensemble des équipes, avec des F-mesures de 0,43 pour la sous-tâche 1 et 0,63 pour la sous-tâche 2.





DOING@DEFT : cascade de CRF pour l’annotation d’entités cliniques imbriquées



DOING@DEFT : cascade de CRF pour l’annotation d’entités cliniques imbriquées
Anne-Lyse Minard, Andréane Roques, Nicolas Hiot, Mirian Halfeld Ferrari Alves and Agata Savary
Cet article présente le système développé par l’équipe DOING pour la campagne d’évaluation DEFT 2020 portant sur la similarité sémantique et l’extraction d’information fine. L’équipe a participé uniquement à la tâche 3 : “extraction d’information”. Nous avons utilisé une cascade de CRF pour annoter les différentes informations à repérer. Nous nous sommes concentrés sur la question de l’imbrication des entités et de la pertinence d’un type d’entité pour apprendre à reconnaître un autre. Nous avons également testé l’utilisation d’une ressource externe, MedDRA, pour améliorer les performances du système et d’un pipeline plus complexe mais ne gérant pas l’imbrication des entités. Nous avons soumis 3 runs et nous obtenons en moyenne sur toutes les classes des F-mesures de 0,64, 0,65 et 0,61.


DEFT 2020 – Extraction d’information fine dans les données cliniques : terminologies spécialisées et graphes de connaissance



DEFT 2020 – Extraction d’information fine dans les données cliniques : terminologies spécialisées et graphes de connaissance
Thomas Lemaitre, Camille Gosset, Mathieu Lafourcade, Namrata Patel and Guilhem Mayoral
This paper presents our rule-based approach for fine-grained information extraction in clinical data, submitted in reponse to Task 3 at the DEFT 2020 evaluation campaign. We design (1) a dedicated medical terminology from existing medical references and (2) a knowledge graph based on the semantically rich knowlege base – JeuxDeMots.





Calcul de similarité entre phrases : quelles mesures et quels descripteurs ?



Calcul de similarité entre phrases : quelles mesures et quels descripteurs ?
Davide Buscaldi, Ghazi Felhi, Dhaou Ghoul, Joseph Le Roux, Gaël Lejeune and Xudong Zhang
Cet article présente notre participation à l’édition 2020 du Défi Fouille de Textes DEFT et plus exactement aux deux tâches ayant trait à la similarité entre phrases. Dans notre travail nous nous sommes intéressé à deux questions: celle du choix de la mesure du similarité d’une part et celle du choix des opérandes sur lesquelles se porte la mesure de similarité.
Nous avons notamment étudié la question de savoir s’il fallait utiliser des mots ou des chaînes de caractères (mots ou non-mots). Nous montrons d’une part que la similarité de bray-curtis est significativement plus efficace que la similarité cosinus et d’autre part que le calcul de similarité sur des chaînes de caractères est plus efficace que le même calcul sur des mots.



Similarité sémantique entre phrases : apprentissage par transfert interlingue



Similarité sémantique entre phrases : apprentissage par transfert interlingue
Charles Teissèdre, Thiziri Belkacem and Maxime Arens
Dans cet article, nous décrivons une approche exploratoire pour entraîner des modèles de langue et résoudre des tâches d’appariement entre phrases issues de corpus en français et relevant du domaine médical. Nous montrons que, dans un contexte où les données d’entraînement sont en nombre restreint, il peut être intéressant d’opérer un apprentissage par transfert, d’une langue dont nous disposons de plus de ressources pour l’entraînement, vers une langue cible moins dotée de données d’entraînement (le français dans notre cas). Les résultats de nos expérimentations montrent que les modèles de langue multilingues sont capables de transférer des représentations d’une langue à l’autre de façon efficace pour résoudre des tâches de similarité sémantique telles que celles proposées dans le cadre de l’édition 2020 du Défi fouille de texte (DEFT).
Text mining challenge: semantic similarity and fine information extraction. In this paper, we describe an exploratory approach to train language models and solve sentence-matching tasks from French corpora in the medical field. We show that, in a context where training data are limited, it may be interesting to transfer learning from a language with more training resources to a target language with less training data (French in our case). The results of our experiments show that multilingual language models are able to transfer representations from one language to another efficiently to solve semantic similarity, tasks such as those proposed in the 2020 edition of the Text Mining Challenge (DEFT).


Présenter votre article à JEP-TALN-RECITAL 2020

Vous avez un article accepté à l’une des sessions de la conférence : bravo !

Comme expliqué précédemment, chaque article sera associé à une page dédiée sur notre site web, vous pouvez voir un exemple sur cette page.

Supports de présentation

Pour accompagner l’article, nous vous conseillons de réaliser un diaporama, de préférence commenté, qui présente de manière synthétique votre travail, comme vous l’auriez fait pour une présentation orale durant la conférence physique.

Nous recommandons une durée de 20 min, à + ou – 5 min près. Le format virtuel nous autorise à ne pas être très pointilleux sur la durée des présentations 🙂

Si vous voulez proposer un diaporama sans commentaire audio, celui-ci doit être au format pdf.

Si vous dites oralement un texte sur votre diaporama, merci de fournir le tout comme une seule vidéo au format mp4 (voir “Comment enregistrer des commentaires sur un diaporama” ci-dessous).

Ces supports ne seront accessibles qu’aux participants inscrits à la conférence. Ils seront hébergés sur un serveur de l’Université de Lorraine.

Merci de nous faire parvenir vos ressources sous la forme d’un seul fichier (une archive si vous avez plusieurs ressources à fournir) à l’adresse suivante : https://bul.univ-lorraine.fr/index.php/s/DZccjp2xoTk3QyQ (interface web sur laquelle vous pouvez glisser-déposer votre ressource). Merci de suivre le modèle suivant pour le nom de votre ressource : article_<id>_<nom_1er_auteur>.extension (id correspondant au numéro de votre article dans easychair).

Comment réaliser un diaporama en pdf ?

Vous pouvez par exemple utiliser, en choisissant l’export en pdf :

  • Beamer bien sûr, LE package LateX
  • reveal.js : des slides écrites en markdown, redoutablement pratique, même s’il faut rentrer dedans
  • les solutions libres comme framaslides (qui fermera en 2021) et ses alternatives comme sans-nuage (slide).
  • les solutions classiques comme PowerPoint, KeyNote, Google Slide …

Comment enregistrer des commentaires sur un diaporama ?

Pour réaliser une vidéo de présentation, c’est-à-dire enregistrer une voix-off sur votre diaporama, diverses solutions existent :

Comment réduire la taille trop importante d’une vidéo mpeg4 ?

Vous pouvez utiliser l’outil ffmpeg qui existe pour Linux, Windows et MacOS.

Vous pouvez télécharger les exécutables ici.

Une fois téléchargé, il faut ouvrir une fenêtre de ligne de commande, aller dans le répertoire de vos nouveaux exécutables, puis lancer la commande :

ffmpeg -i video_lourde.mp4 -vcodec h264 -acodec aac video_compresse.mp4

JEP TALN RECITAL 2020 en mode virtuel

Comme la situation actuelle ne nous permet pas de vous accueillir à Nancy, nous vous proposons une conférence JEP-TALN-RECITAL virtuelle avec une organisation asynchrone notamment fondée sur le site web de la conférence.  Afin de toucher le maximum de membres de notre communauté, nous avons le plaisir d’offrir un accès totalement gratuit à la conférence ! L’inscription sera cependant obligatoire, un lien sera bientôt disponible sur notre site.

Bien que la conférence soit gratuite cette année, il ne faut pas perdre de vue que son maintien est lié à l’investissement et au soutien indéfectible de l’ATALA et de l’AFCP dans l’organisation, c’est la raison pour laquelle nous encourageons tous les participants à adhérer à ces associations.
Adhérer à l’ATALA : https://www.atala.org/adhesion
Adhérer à l’AFCP : http://www.afcp-parole.org/spip.php?page=inscription_afcp

La conférence sera organisée en sessions. Chaque session contient un ensemble d’articles et chaque article aura une présentation avec le texte intégral de l’article et des informations complémentaires communiquées par les auteurs de l’article.

L’interaction avec les auteurs sera possible grâce à un forum, lié à un chaque article, via lequel les participants pourront poser des questions ou commenter l’article. Cet échange se déroulera du 8 juin au 19 juin 2020, donc sur deux semaines pour laisser du temps à la discussion dans ce mode asynchrone. Pour suivre plus facilement les discussions, une fonctionnalité d’abonnement aux forums, avec notification automatique, sera mise en place.

Notez que les ateliers DefT et ETeRNAL sont maintenus. Cependant, tous les tutoriels sont annulés ainsi que le salon PAREIL, des événements qui se prêtent plus difficilement à une organisation virtuelle.

Nous vous encourageons fortement à nous rejoindre sur les réseaux sociaux pour être tenus au courant des dernières informations et suivre le déroulé de la conférence :
Twitterhttps://twitter.com/jeptaln2020 ou identifiant du profil : @jeptaln2020
Mastodon : le réseau social en open source (et plus sympa 😉
– si vous avez déjà un compte : https://frama.link/jeptaln2020
– sinon invitation : https://frama.link/joinJepTalnRecitalMasto

En espérant que vous serez nombreux à nous accompagner dans cette première expérience de conférence à distance, et que vos conditions de travail et de vie restent au mieux.

Le Comité d’Organisation de JEP-TALN-RECITAL 2020

Continuité de JEP-TALN-RECITAL 2020

Face à la situation inédite due à la crise du covid-19, qui annule pour nous toute visibilité sur les mois à venir, il est désormais certain que nous ne pourrons pas maintenir la conférence JEP-TALN-RECITAL 2020 telle que nous l’avions prévue.

En conséquence, nous nous donnons au plus un mois pour décider si la conférence peut avoir lieu sous une autre forme, qui pourrait être une virtualisation totale, un micro-événement avec participation des laboratoires locaux et des autres personnes voulant nous rejoindre et éventuellement des solutions de télé-présence (si les conditions sanitaires l’autorisent sans aucun risque). Nous sommes à l’écoute des suggestions de la communauté et suivons les solutions choisies par les organisateurs d’autres conférences de par le monde (comme ICLR, ICCAPS, ACL, etc.).

En revanche, il est bien évident que cela ne remet pas en cause la publication des actes. Les actes seront donc publiés, et nous remercions chaleureusement les auteurs pour leur travail, ainsi que les relecteurs et les membres des comités de programme dont le travail est encore en cours. Nous remercions également les auteurs d’articles RECITAL et de démonstrations qui continuent à soumettre leur recherche. Surtout continuez à nous envoyer vos propositions !

Nous reviendrons donc vers vous dans un mois au plus tard pour préciser l’organisation de l’édition conjointe JEP-TALN-RECITAL 2020.

Vous devinez sans doute notre déception du fait des efforts déjà fournis et de la joie que nous avions à vous accueillir à Nancy en juin. Cette déception concerne aussi tout le personnel support, très présent à nos côtés. Nous en profitons aussi pour remercier nos soutiens institutionnels, académiques et industriels vers lesquels nous reviendrons rapidement. Au-delà, ce qui nous semble important est que nous passions tous ensemble cette crise et qu’elle soit derrière nous le plus rapidement possible.

Si jamais, pour la suite des événements, vous avez des conseils et remarques, nous les attendons volontiers.

Prenez soin de vous, et encore merci pour tous les efforts fournis.

Les organisateurs de JEP-TALN-RECITAL 2020