Session invitée : Marie-Jean Meurs et Hugo Cyr

Ce lundi 15.06, de 15h00 à 17h00, Marie-Jean Meurs et Hugo Cyr nous présenteront leurs travaux sur le “Traitement automatique du langage naturel appliqué au domaine juridique”

Voici le résumé de leur intervention :

Traiter automatiquement les contenus juridiques en langage naturel est souvent difficile. Nous en discuterons les raisons et les conséquences. Par exemple, l’accès aux données nécessaires à l’entraînement d’algorithmes d’apprentissage dédiés au domaine est généralement limité. Au Canada, pour des raisons tant financières que de protection de la vie privée, il est souvent possible de consulter des documents à la pièce mais pas de les télécharger en lot. De plus, les documents ne sont pas annotés et sont souvent caviardés, ce qui limite les possibilités d’utilisation directe par des algorithmes d’apprentissage.

Dans une seconde partie de la présentation, nous décrirons nos travaux centrés sur les robots conversationnels, dont les apports au domaine juridique peuvent être multiples. Ces systèmes permettent d’aborder des tâches complexes, de l’assistance des citoyens à l’aide aux avocats et aux juges. Les approches présentées utilisent des données personnelles tant pour leur développement que pour leur fonctionnement ultérieur. Nous examinerons donc les enjeux de société liés à leur implantation, depuis les risques pour la vie privée jusqu’à la reproduction voire au renforcement des biais existants dans les données.

Vous retrouverez une présentation des deux orateurs ici

Les deux orateurs nous ont présenté en direct leurs travaux. L’enregistrement est désormais disponible ici :

Un prototype en ligne pour la prédiction du niveau de compétence en anglais des productions écrites



Un prototype en ligne pour la prédiction du niveau de compétence en anglais des productions écrites
Thomas Gaillat, Nicolas Ballier, Annanda Sousa, Manon Bouyé, Andrew Simpkin, Bernardo Stearns and Manel Zarrouk
Un prototype pour la prédiction en ligne des niveaux de compétence en anglais des productionsécrites.Cet article décrit un prototype axé sur la prédiction du niveau de compétence des apprenantsd’anglais. Le système repose sur un modèle d’apprentissage supervisé couplé à une interface web pourles utilisateurs. L’entraînement des modèles a été conduit sur plus de 3 millions de mots du corpusd’apprenant EFCAMDAT. L’évaluation du système a montré une précision de 82%. Le système estbasé sur la technologie Docker, ce qui permet un déploiement facile.

Vers un corpus optimal pour la fouille de textes : stratégie de constitution de corpus spécialisés à partir d’ISTEX



Vers un corpus optimal pour la fouille de textes : stratégie de constitution de corpus spécialisés à partir d’ISTEX
Camille de Salabert and Sabine Barreaux
Préalable indispensable à de nombreuses activités de TAL et de fouille de textes, l’élaboration d’un corpus peut nécessiter plusieurs phases de traitement pour améliorer sa qualité et ainsi obtenir les meilleurs résultats d’analyse automatique. Les post-traitements appliqués à un tel corpus, notamment pour garantir la pertinence de son contenu et l’homogénéité de son format, pourront s’avérer d’autant plus coûteux et fastidieux que la construction du corpus de travail aura été imprécise. Cette démonstration se proposera de tirer parti de la plateforme ISTEX et de ses services associés pour constituer, au travers d’un cycle itératif, un corpus homogène de publications scientifiquement pertinentes pour une utilisation simplifiée par des outils de fouille.

LEX : un jeu avec finalité d’acquisition de ressources lexicales



LEX : un jeu avec finalité d’acquisition de ressources lexicales
Asheesh Gulati
LEX est un jeu avec un but développé dans l’optique d’explorer plus avant les éléments et principes de la conception de jeux tels qu’ils sont pratiqués dans l’industrie vidéoludique, pour les mettre au service de la conception de jeux sérieux. Le premier prototype repose sur un mode bac à sable pour faire appel à la créativité du joueur et renforcer l’immersion ludique.