Quatre grands projets dans le monde

En France, des interrogations sur le choix des sites

Faut-il archiver tout le Web, y compris les sites pornographiques ou les pages personnelles les plus banales ? Ou n’en choisir que les parties les plus riches en informations, comme les sites gouvernementaux ou ceux des grands quotidiens ? “La bonne solution sera un mélange des deux, explique Dominique Pignon, chercheur à l’Ecole normale supérieure (ENS). Il existe des pages que personne ne lit. Cela ne veut pas dire qu’elles n’auront pas d’intérêt dans 20 ans.” Il est probable que les scientifiques tenteront d’archiver le maximum d’informations, avec un effort particulier pour les sites à forte notoriété. Malheureusement, ces pages sont parfois hors d’atteinte. “Nos logiciels-robots ne voient pas forcément tous les liens vus par un internaute. Des obstacles existent quand il faut interpréter des parties multimédias programmées en PHP ou en JavaScript, ou dénicher un lien associé à un bouton graphique.” Pour faciliter la récupération des pages enfouies dans les bases de données des sites, on n’exclut pas de demander à ces derniers une copie de leurs archives.

Dominique Pignon, physicien, est directeur de recherche à l’Ecole normale supérieure (ENS). Il travaille sur le dépôt légal en collaboration avec l’Institut national de l’audiovisuel (INA).

Aux États-Unis, un budget colossal

Vous voulez revoir les premières versions de Yahoo!, ou retrouver un site disparu ? Brewster Kahle propose une solution. Ce millionnaire américain, fondateur de la société Alexa, a lancé en avril 1996 le projet Internet Archive, aussi désigné sous le nom Wayback Machine. A l’adresse www.archive.org, il propose l’accès gratuit à des millions de sites de tous pays, dont certains ont été archivés plusieurs fois par an depuis 1996. Des dossiers thématiques sont disponibles, par exemple l’actualité de l’attentat du 11 septembre 2001 vue au jour le jour. Le total occuperait environ 100 To de données (100 000 Go), soit 10 milliards de pages, à l’abri dans une ancienne base militaire. Le coût de fonctionnement ? Près d’un demi-million d’euros (3,3 millions de francs). Mais la Bibliothèque du Congrès américain envisage de faire mieux, avec un stockage beaucoup plus régulier et plus exhaustif. Pour y arriver, elle prévoirait un budget énorme : environ 200 millions d’euros sur trois ans (1,3 milliard de francs) !

Des milliards de pages Web sont passés à la postérité sur le site www.archive.org. Un exemple : la sobre page d’accueil de la version française de Yahoo!, datée du 26 décembre 1996.

En Suède, un conflit lié aux droits d’auteur

Depuis l’été 1996, la Bibliothèque nationale de Suède crée quatre fois par an des captures instantanées de tout le Web suédois. Un logiciel-robot, appelé Combine, parcourt les liens des sites en langue suédoise et engrange tout, en conservant la navigation entre les pages. En février 2001, les archives représentaient environ 3 To de données, soit 97 000 sites et plus de 110 millions de fichiers. Le problème est qu’on ne retrouve pas l’évolution quotidienne ou hebdomadaire d’un site. Et, depuis un conflit lié au respect des droits d’auteur sur les textes et les images, l’accès est limité aux participants au projet.

En Australie, un archivage sélectif

En Australie, le projet Pandora Archive se concentre depuis 1996 sur l’archivage des magazines mis en ligne et de toutes les publications exclusivement électroniques. Les sites sont classés dans une quinzaine de rubriques (sport, science, santé, etc.), à la manière d’un annuaire de recherche. Le résultat est consultable à l’adresse pandora.nla.gov.au. Mais comme de nombreux autres sites ne sont pas sauvegardés, on ne peut pas accéder à toutes les pages liées. En revanche, surprise : même les animations en Flash sont conservées !

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Didier Castelnau