L’encyclopédie en ligne Wikipedia est un formidable projet humaniste, mais même elle n’est pas exempte de biais sexistes. Ainsi, les femmes ne représentent que 20 % des biographies écrites en langue anglaise. Et elles ne constituent que 15 % des rédacteurs de Wikipedia.
Pour contrer cette sous-représentation, Angela Fan, chercheuse au centre FAIR Paris de Meta, a créé une intelligence artificielle capable de compiler des informations issues du Web au sujet d’une personne et d’en faire un article de biographie façon Wikipedia.
A découvrir aussi en vidéo :
C’est un processus qui est loin d’être évident. Certes, il existe déjà des modèles, comme GPT-3, qui sont capables de générer de façon bluffante un texte sur un sujet particulier. Mais là, le niveau d’exigence est plus élevé. Il ne s’agit pas d’inventer des phrases les unes après les autres, mais de composer un article complet avec des informations sourcées.
« Les IA de génération de texte telles que GPT-3 ont du mal à planifier et structurer un long texte. Au-delà d’un paragraphe, il perdra en cohérence », nous explique Angela Fan.
Pour pallier ce problème, la chercheuse a créé un système particulièrement structuré, qui fonctionne comme un canevas. Il va subdiviser la biographie en différentes parties (introduction, jeunesse, carrière, etc.) et pour chacune d’entre elles il va procéder à trois traitements fondés sur l’apprentissage automatique : la recherche et le tri d’informations pertinentes sur le Web, la génération de texte, et l’intégration des références.
Le système a été entraîné sur un ensemble de plus de 677 000 biographies issues de Wikipedia. Pour pouvoir mieux mesurer sa performance, Angela Fan a constitué un set d’évaluation spécifique, constitué de 1 527 biographies de femmes. Puis, elle a utilisé son système pour créer une série de biographies. Malheureusement, le résultat est encore loin d’être parfait.
Parmi les informations contenues dans les articles générés, 32% se retrouvent aussi dans les biographies référentes et 17% peuvent être reliées à des sources Web. Le reste est de l’invention impossible à vérifier.
Autre résultat : plus il y a d’informations sur une personne sur le Web, meilleure sera la qualité de la biographie générée. Et c’est aussi là l’un des problèmes de fond.
« Sur le web, on trouve moins d’informations sur les personnalités féminines que masculines. Ce qui rend la génération de biographies plus difficile », constate Angela Fan.
C’est un peu le serpent qui se mord la queue.
Quoiqu’il en soit, cette recherche est un bon début et montre la voie pour les recherches à venir. Ce système pourrait être utilisé pour contrebalancer d’autres inégalités, par exemple d’ordre linguistique, culturel ou politique.
Source : Meta
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.