Description du projet

Dates : 2023 — 2027

Financement : ANR TSIA 2023

Partenaires : CHU Rouen, LISN, LORIA

GitLab public : https://gitlab.inria.fr/inextenso/inextenso_public

Les giga modèles de langue sont le couteau suisse du traitement automatique des langues (TAL) actuel. Ils surpassent souvent l’état de l’art pour des tâches telles que l’étiquetage morphosyntaxique, la classification de textes et la reconnaissance d’entités nommées, ouvrant ainsi la voie à une myriade d’applications pour les utilisateurs. Cependant, ces modèles présentent des problèmes éthiques majeurs, notamment leur impact environnemental et le fait qu’ils reflètent et amplifient les biais stéréotypés, qui ont un impact disproportionné sur les groupes sociaux historiquement défavorisés. Il est urgent de prendre en compte l’impact sociétal du TAL puisque les applications que nous développons, comme chatGPT, sont désormais directement mises à disposition des utilisateurs. La détection et l’atténuation des biais est donc devenue un domaine de recherche actif au cours des dernières années, se concentrant principalement sur les modèles de langue masqué tels que BERT, sur l’anglais et sur le contexte sociétal nord-américain. Plusieurs sources de biais ont été identifiées dans les chaînes de traitement du TAL, mais l’interconnexion entre les sources et l’impact global de chaque source sur les applications en aval reste flou. Dans ce projet, nous voulons observer l’ensemble de la chaîne, du point de vue intrinsèque (au sein du modèle lui-même), du point de vue de la tâche de pré-entrainement (dans le cas des modèles auto-régressif, génération de texte), sur certaines applications aval. Nous avons choisi de nous concentrer sur deux types d’applications médicales : l’aide au diagnostic de la maladie mentale et l’extraction d’informations à partir de dossiers cliniques à des fins de santé publique telles que l’inclusion de patients dans des essais cliniques. Le projet fournira des corpus et des méthodes pour une évaluation globale des biais dans les modèles de langue du français, ainsi que des études pour approfondir la compréhension des biais dans le TAL clinique et l’impact environnemental de l’intégration de ces modèles en santé numérique.

Les commentaires sont clos.