Passer au contenu

L’usine à pages

La société Infotechnique, implantée à La Walck, en Alsace, numérise chaque jour des dizaines de milliers de pages de façon automatique. Une opération coûteuse et délicate, pratiquée sous haute surveillance.

Après Google et l’Union européenne, Microsoft et Yahoo planchent à leur tour sur la création de leur bibliothèque virtuelle. Et ils ne sont pas les seuls. Des projets titanesques, qui passent par la numérisation de dizaines de
millions d’archives et de livres, voient le jour. Dans cette compétition, qui implique la transformation d’ouvrages imprimés en données informatiques, deux méthodes s’opposent. D’un côté, la numérisation manuelle, qui consiste à scanner
‘ à la main ‘ les pages de millions d’ouvrages, comme le font des milliers d’ouvriers mexicains pour le compte de Google. De l’autre, la numérisation automatique, telle qu’elle se pratique chez
Infotechnique.Cette société luxembourgeoise est équipée de quatre scanners capables de tourner les pages des livres sans intervention humaine, ou presque. Un procédé qui, selon ses responsables, permet de gagner du temps et de préserver l’intégrité
des ouvrages. Achetées 300 000 euros l’unité à 4DigitalBooks, une société suisse, les quatre machines d’Infotechnique sont actuellement les seules utilisées de façon industrielle (deux autres sont installées dans des universités : la
première à Southampton, en Angleterre, la seconde, à Stanford, aux Etats-Unis). Infotechnique numérise aujourd’hui, pour le ministère de la Justice, le livre foncier d’Alsace-Moselle. Equivalent du registre des hypothèques dans les autres
départements français, ce document regroupe des actes notariés : ventes et achats de terrains, bien immobiliers, etc. Le projet, dénommé Amalfi (Alsace Moselle Application pour un Livre foncier informatisé), nécessite de scanner près de
40 000 ouvrages au format A2, datant, pour certains, de la fin du XIXe siècle. Coût de l’opération : 23 millions d’euros.Si Infotechnique est encore seule sur le marché naissant de la numérisation automatique, elle risque de ne pas le rester longtemps. De nouveaux clients commencent en effet à s’intéresser au procédé. Après les créateurs de
bibliothèques virtuelles, de grandes entreprises et institutions souhaitent numériser leurs archives, entreposées dans des kilomètres de rayonnages poussiéreux. Prometteur, le marché de la numérisation aiguise les appétits. Un nouveau constructeur
de scanners automatiques, l’américain Kyrtas, a récemment annoncé la commercialisation de machines capables d’atteindre une cadence de 24 000 pages au format A4 par heure (contre 3 000 pour les scanners de 4DigitalBooks). La bataille de la
numérisation ne fait que commencer.

Des livres en pagaille

Si, pour le moment, l’usine de La Walck, dans le Bas-Rhin, s’occupe principalement du Livre foncier d’Alsace-Moselle, d’autres ouvrages sont en cours de numérisation. C’est le cas notamment de certains registres de l’état civil
français ou des recueils de lois du gouvernement luxembourgeois. Et les dirigeants d’Infotechnique suivent avec attention ?” et convoitise ?” le projet de création d’une bibliothèque virtuelle européenne. A la clé, un gigantesque
marché : plusieurs millions d’ouvrages à numériser, dont les immenses collections de la Bibliothèque nationale de France.

Sous haute protection

Les livres sont embarqués dans des caissons en matériau composite à l’épreuve de l’eau, du feu et des chocs. Pour éviter d’égarer les précieux ouvrages, ces caissons sont suivis à la trace. Les camionnettes qui les amènent à l’usine
sont ainsi équipées d’un système GPS qui transmet, en temps réel, leur position. Et les livres ne sortent de leurs caissons protecteurs qu’une quarantaine de minutes, pour passer dans le scanner automatique.

Soumis à l’étiquette

Lorsqu’ils prennent livraison des livres à numériser chez leurs clients, les employés d’Infotechnique procèdent à un premier inventaire. Ils vérifient que chaque ouvrage pourra résister à un traitement automatique. Ils enregistrent
ensuite différentes informations (titre, auteur, état de conservation, etc. ) sur une étiquette RFID, qu’ils apposent à l’intérieur des couvertures. Cette étiquette permet de suivre chaque ouvrage tout au long de la chaîne de numérisation.

Numérisation à haute cadence

Un seul opérateur surveille et alimente les quatre scanners automatiques capables de traiter des livres jusqu’à 15 centimètres d’épaisseur, et dont le format peut varier du ‘ poche ‘ au
A2 (42 x 59,4 cm). Chaque machine permet de scanner 800 pages A2 et 3 000 A4 (21 x 29,7 cm) par heure. En tournant 24 heures sur 24, comme pour le projet Amalfi, l’usine autorise la numérisation de 50 000
pages par jour.

Données sous contrôle

Après la numérisation, les pages, enregistrées au format Tiff, sont immédiatement contrôlées sur l’écran d’un PC relié au scanner. L’opérateur vérifie la qualité des images et s’assure que le nombre de pages numérisées correspond à
celui de l’ouvrage.

Feuilletage automatique

Posé sur le scanner, l’ouvrage est maintenu en place par un système d’aspiration, qui le plaque contre la machine. Un laser repère le bord des pages pour délimiter la zone à numériser. Deux plaques de verre viennent ensuite se poser
sur le livre afin d’éviter que les pages ne se plient ou gondolent. Pour tourner une page, le scanner l’aspire, l’attrape délicatement avec son bras automatique, puis la rabat. Un système utilisant les ultrasons permet de vérifier qu’une seule page
est tournée à la fois. La caméra du scanner passe alors sur la double page ainsi découverte pour la numériser.

Compression et transmission

Avant d’être stockées sur l’un des cinq serveurs de l’usine, les images sont converties au format LDF (LuraDocument File). Enregistré en Tiff, un fichier correspondant à une double page A2 du Livre foncier pèse de
700 Ko à 1,5 Mo ; en LDF, son poids oscille entre 70 et 150 Ko. Ce format autorise néanmoins une bonne qualité d’image puisqu’il sépare les données en deux couches : le texte, compressé au format CCITT groupe 4 (celui
utilisé pour les télécopies), et le fond, en JPeg 2000. Ces images sont ensuite envoyées par satellite à Madagascar, où elles sont transformées en fichiers XML. Ces fichiers, comparés avec les images originales pour une dernière vérification, sont
finalement gravés sur DVD puis transmis au client.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Benjamin Peyrel