Le 7 novembre dernier, les fiches biographiques de 1,3 million de soldats reconnus ‘ morts pour la France ‘ durant la guerre 1914-1918 ont été
mises en ligne sur le site du ministère de la Défense. Il s’agit de la dernière partie d’un grand projet de numérisation initié au milieu des années 1990, mais
qui a véritablement démarré en mars 2000, suite à la création d’une Sous-Direction des archives et des bibliothèques au ministère (SDAB). Un projet qui s’est quelque peu compliqué ces derniers mois lorsque la Commission nationale de
l’informatique et des libertés (Cnil) a rendu son avis sur la diffusion des données.
L’indexation par saisie manuelle
En septembre 2000, Safig Numway, société spécialisée dans la reprise de fonds documentaires, a remporté l’appel d’offres. Elle présentait l’avantage de bénéficier, comme le rappelle Sylvain Lebreton,
responsable du projet au ministère, ‘ d’une expertise dans la numérisation et l’indexation de masse en matière d’archives anciennes, le tout au meilleur prix ‘. Aucun logiciel du
marché n’étant alors capable de reconnaître une écriture manuscrite ancienne, il a été décidé que l’indexation reposerait sur une saisie manuelle de trois éléments (nom, prénom et date de naissance) pour des ‘ raisons de
coût ‘.Fin 2002, la numérisation et l’indexation étaient terminées. Il ne restait plus qu’à créer le site : le marché a été remporté par Jouve, en juin dernier. Toutefois, un avis de la Cnil, consultée sur la mise en ligne
de la base de données, a soumis l’ouverture du site à la condition que les données médicales qui figuraient dans 7 % des fiches soient retirées : la loi sur les archives interdit la publication des informations médicales pendant
cent cinquante ans à compter de la date de naissance des intéressés.
Deux tiers des fiches validées automatiquement
Le recours à la
reconnaissance de caractères (ICR pour Intelligent Character Recognition) a permis, toutefois, d’ouvrir le site dans les délais ?” pour le
quatre-vingt-cinquième anniversaire de l’armistice de la Grande Guerre ?” sans faire exploser le budget (1,5 million d’euros) ; les deux tiers des fiches ont ainsi pu être validées automatiquement. L’opération a
épargné à Safig Numway huit cent quatre-vingts heures de traitement manuel. La société avait fourni sa base de données à l’éditeur A2iA, qui avait adapté son logiciel de reconnaissance d’écriture FieldReader aux manuscrits anciens
parfois dégradés, au terme de deux années de recherche en partenariat avec le ministère. Il y a trois ans, un partenariat de recherche scientifique avait, en effet, été conclu, pour ces futurs projets de numérisation, entre le ministère de la
Défense et l’université Paris-V René-Descartes, dont l’un des étudiants suivait une formation en alternance chez A2iA. L’éditeur est connu dans le domaine de la reconnaissance d’écriture sur les chèques ou autres
documents récents.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.