Les institutions impliquées dans l’organisation sont le CNRS et l’Université de Lorraine. Les structures concernées sont d’une part deux laboratoires, le LORIA (Laboratoire Lorrain de Recherche en Informatique et ses Applications) et l’ATILF (Analyse et Traitement Informatique de la Langue Française), et d’autre part l’institut INIST (Institut National de l’Information Scientifique et Technique).
Au LORIA, cinq équipes travaillent sur les thématiques de la conférence :
- Multispeech a pour objectif le traitement et l’analyse de la parole. Ses approches sont principalement numériques, et apprentissage automatique ;
- Orpailleur est spécialiste en fouille de données, et plus spécifiquement en fouille de textes en langage naturel ;
- Sémagramme a pour objectif la modélisation formelle de la langue au niveau lexical, syntaxique et sémantique ;
- Smart se concentre sur la modélisation via des approches statistiques de texte et de parole dans un cadre multilingue
(traduction automatique, comparaison de documents multilingues au niveau des opinions, des sentiments) ; - Synalp utilise des approches symboliques et statistiques pour le TALN (pour l’écrit et l’oral).
L’ATILF, quant à lui, est spécialiste de l’étude de la langue écrite et orale (principalement le français) au niveau linguistique, ainsi qu’en production de ressources et outils pour le TALN, la description des langues et la didactique :
- L’équipe Didactique des langues et sociolinguistique se positionne principalement dans le domaine du multilinguisme (didactique des langues étrangères) ;
- L’équipe Discours s’intéresse à la macro-syntaxe, à l’analyse du discours, aux pathologies et à l’acquisition du langage ;
- L’équipe Lexique s’intéresse à la modélisation linguistique du lexique dans tous ses niveaux de description (morphologique, syntaxique, sémantique) et produit nombre de ressources lexicales et lexicologiques ;
- L’équipe Linguistique historique française et romane travaille dans le domaine de la lexicologie, de la lexicographie et de la métalexicographie ainsi que sur la syntaxe historique française, galloromane et romane ;
- L’équipe Ressources, normalisation, annotation et exploitation s’intéresse tout particulièrement à la production de corpus dans les domaines littéraire et linguistique.
L’INIST, unité propre de service du CNRS, facilite l’accès, l’analyse et la fouille de l’information scientifique et valorise la production scientifique (publications et données de recherche). À travers ses projets récents, elle affiche le text-mining (TM) et le TAL comme des axes forts dans sa nouvelle stratégie de soutien aux chercheurs. ISTEX, base documentaire de corpus multidisciplinaire, permet l’extraction, la fouille de textes et la production de synthèses documentaires ; LOTERRE est une plateforme de mise à disposition de ressources terminologiques scientifiques multidisciplinaires, fondée sur les technologies du web de données ; le projet VISA TM vise à étudier les conditions de production de services TM à haute valeur ajoutée basés sur l’analyse sémantique à destination des chercheurs, en s’appuyant sur les résultats du projet OpenMinted 3. En particulier, un des défis majeurs de la future plateforme sera de s’adresser à des chercheurs non spécialistes de TM ce qui implique de mettre les questions d’accompagnement au coeur du dispositif.