Passer au contenu

La BNF fait corriger ses œuvres numérisées par la communauté Wikimedia

Les ouvrages tombés dans le domaine public et numérisés pour la bibliothèque en ligne Gallica présentent des erreurs. Les internautes vont se charger de revoir 1 400 documents.

Confier la réalisation d’une encyclopédie en ligne à des internautes lambda, est-ce une bonne idée ? Régulièrement, la qualité de Wikipedia fait débat. La Bibliothèque nationale de France (BNF), elle, a surtout retenu de ce genre de projet la capacité de travail d’internautes bénévoles et la force de la communauté.

C’est pourquoi elle a conclu un partenariat avec Wikimedia France, l’association qui soutient les projets communautaires et la diffusion de contenus libres, pour solliciter le concours d’internautes contributeurs. La BNF va donner accès sur Wikisource à ses documents tombés dans le domaine public et numérisés pour la bibliothèque en ligne Gallica. Ces œuvres ont été photographiées, et les images analysées par un programme de reconnaissance automatique de caractères.

Or, à cause des techniques employées pour imprimer les documents d’origine et de leur ancienneté, la numérisation n’a pas toujours été parfaite. « Les logiciels de reconnaisssance de caractères ont beaucoup progressé en trente ans, explique Dominique Stutzmann, expert technique documentaire à la BNF, mais il reste des passages mal reconnus. Avec l’impression mécanique du XIXe siècle, par exemple, les textes sont parfois mal encrés, des passages sont plus clairs que d’autres, etc. » Les transcriptions qui en résultent présentent donc des erreurs. Ce sont ces dernières que les internautes sont invités à traquer et à corriger.

1 400 ouvrages

La BNF a transmis à Wikisource 1 400 œuvres sous forme de fichiers. L’ensemble représente plusieurs milliers de pages, incluant des œuvres de George Sand, d’Emile Zola, de la comtesse de Ségur, d’Alphonse de Lamartine, de Stendhal, etc. (voir la liste intégrale).

Les internautes disposent en fait de deux versions de chaque ouvrage, le fichier image des pages photographiées et la transcription, pour pouvoir comparer les deux et, donc, de corriger la seconde si besoin.

La mise en ligne des documents est en cours, afin qu’ils soient progressivement « nettoyés » de leurs scories. « Comme sur Wikipedia, tout le monde peut vérifier les contenus, les corriger. Des équipes peuvent se former de manière spontanée pour travailler sur tel ou tel document, explique Christophe Henner, porte-parole de Wikimedia France. Ensuite, nous allons essayer d’animer ce projet régulièrement, de créer des événements, autour des anniversaires de tels auteurs ou œuvres par exemple. »

Le projet, qui repose entièrement sur le bénévolat des internautes, n’a pas de calendrier ni de date butoir, même si Wikimedia informera régulièrement la BNF de l’avancée des travaux. « Pour nous, l’enjeu est de montrer qu’un partenariat entre une institution publique et le monde privé, associatif, même, ça marche. » L’opération a surtout valeur de test, et les deux partenaires ne se sont pas imposés trop de contraintes. Dans un premier temps, les textes corrigés ne seront disponibles que sur Wikisource.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Arnaud Devillard