Passer au contenu

L’archivage du web est en route à la Bibliothèque nationale

Évaluation des techniques actuelles, estimation des problèmes légaux : la BNF prépare l’éventuelle extension du dépôt légal à internet. Et l’Unesco réfléchit à une sauvegarde à l’échelle mondiale.

Depuis le XVIe siècle, un exemplaire de chaque nouveau livre publié en France a pris, au titre du dépôt légal, le chemin de la Bibliothèque nationale de France (BNF), autrefois Bibliothèque Royale. Pourtant, la vénérable institution n’a pas le culte du “tout-papier”, et a résolument pris le virage du numérique.

Une réflexion d’envergure

Outre la digitalisation de quelque 30 millions de pages imprimées et de 250 000 iconographies, elle s’est lancée depuis 1998 dans un vaste programme de réflexion et d’expérimentation autour de l’archivage du web, dans la perspective d’une extension du dépôt légal à internet.Sans attendre le vote de la loi sur la société de l’information (LSI), adoptée en conseil des ministres en juin 2001, qui en stipule l’obligation. “Si tout va bien, cette loi sera votée à l’automne ou en début d’année prochaine, et les décrets d’application ne paraîtront pas avant 2004, soupire Catherine Lupovici, directrice de la bibliothèque numérique à la BNF. On ne peut se permettre d’attendre cette date pour commencer à conserver une mémoire de la toile.” La bibliothécaire ne compte pas non plus se laisser arrêter par les Cassandres qui prétendent l’ouvrage irréalisable :“Archiver le web, c’est faisable”, assure-t-elle, citant à l’appui les expériences à l’?”uvre en Suède ou en Australie.La Suède procède depuis 1997 à la collecte automatique d’une large fraction du web, via un robot, tandis que l’Australie a choisi l’archivage manuel d’une sélection restreinte de sites. La première option a le mérite de procéder à une moisson large, mais de surface : le robot est incapable de déchiffrer bases de données et autres pages soumises à mots de passe. Ni d’évaluer l’intérêt de ce qu’il survole. De son côté, l’archivage manuel est restrictif et fastidieux. Pour la BNF, seule une approche combinant les deux méthodes est satisfaisante. À condition d’avoir les outils idoines, à commencer par un moteur “intelligent”, capable d’estimer l’importance des pages qu’il repère, en fonction du nombre de liens qui pointent vers elles, et de signaler ce qu’il n’a pas pu parcourir (fichiers en flux, bases de données, etc.). La BNF travaille avec des sociétés développant de nouveaux produits pour créer, à terme, le moteur le plus adapté. Le futur dépôt légal pourrait alors se présenter comme suit : le moteur parcourt le web, signalant les pages qui méritent d’être archivées et retenant un échantillon de celles-ci au titre du dépôt légal. Pour les sites non archivables automatiquement pour des raisons techniques, ou ayant été repérés comme très intéressants, contact direct serait pris avec les producteurs pour effectuer un dépôt légal plus classique : capture du site sur support (CD) ou transfert de fichiers sécurisés et certifiés.

Tests grandeur nature

Une cinquantaine de sites ont signé une convention avec la BNF pour simuler, ce semestre, un tel dépôt légal, parmi lesquels ceux du Monde et de l’Ifremer (Institut français de recherche pour l’exploitation de la mer). Objectif : repérer les problèmes techniques et sensibiliser les producteurs de contenus. “Il faut montrer aux professionnels et au grand public que l’archivage numérique est une priorité et peut devenir une réalité”, souligne Catherine Lupovici, qui annonce, pour septembre 2002, une conférence publique sur le sujet à la BNF.En attendant, l’archivage a démarré : depuis février, la BNF enregistre les sites nés autour des campagnes présidentielle et législatives 2002 : 320 sites ont déjà été collectés. Par ailleurs, un snapshot ?” littéralement, un instantané, une capture (d’écran) ?” total du “.fr”sera réalisé en juin. Le tout afin d’établir la “profondeur” de ce que peut collecter le robot et de présenter des expériences grandeur nature au législateur qui devra trancher les questions juridiques en suspens, notamment en matière de protection des données personnelles : doit-on déposer les sites perso ? Faut-il archiver les forums ? Peut-on rendre accessibles au public des archives présentant des données nominatives ? Il aura aussi à se situer dans le débat relatif aux bonnes m?”urs : les sites pornographiques feront-ils l’objet d’un dépôt ? “A priori oui, estime Catherine Lupovici, dès lors qu’ils sont publics. Notre mission est de conserver un patrimoine, quelle que soit sa qualité ou sa moralité.”

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Sophie Janvier-Godat