Un vaste projet d’archivage du Web français est en marche. Aujourd’hui, la Bibliothèque nationale de France (BNF) et l’Institut national de l’audiovisuel (INA) y travaillent. Ce dernier vient d’ailleurs, dans cette optique, de signer un partenariat avec l’Ecole normale supérieure.L’INA se concentre sur les radios et les télévisions en ligne, tandis que la BNF scrute de façon plus large les documents en ligne : du site personnel au site marchand, en passant par les journaux.” Le Web est en train de devenir un mode de diffusion de la culture. En garder une trace devient urgent “, justifie Julien Masanès, responsable du projet d’archivage Internet à la (BNF).L’idée a été officialisée par le projet de Loi sur la société de l’information (LSI), cet été. Il prévoit une prolongation du dépôt légal pour Internet. Pratiqué depuis des siècles, le dépôt légal est obligatoire pour toutes les publications écrites (livres, journaux, affiches, etc.) et audiovisuelles (vidéos, disques, etc.). Et, depuis 1993, les bases de données et les progiciels sont également concernés. Il paraît donc logique que le dépôt légal s’étende, à terme, aux sites Web.Les difficultés sont cependant nombreuses pour archiver le Web français : il faut tout d’abord définir quels sites seront sauvegardés. “Pour les déterminer, nous nous inspirons de Google et du coréférencement : les sites les plus référencés ont des chances d’être les plus représentatifs”, explique Julien Masanès.Il faut également réussir à conserver leur structure, surtout lorsqu’il s’agit de sites dynamiques. Pour cela, les webmasters seront priés d’en faire la déclaration eux-mêmes auprès des deux institutions. Lorsque la loi sera promulguée, peut-être l’année prochaine, cette démarche sera de toute façon obligatoire.” Il faut également songer aux formats de fichiers, afin qu’ils restent lisibles des années après “, ajoute Julien Masanès.Les modes d’interrogation des archives restent toutefois à définir. L’INA, par exemple, veut permettre une recherche à travers plusieurs sites mais aussi la possibilité de visualiser les évolutions d’un site au cours du temps.Enfin, la quantité de données à ramener est gigantesque, ce qui pose un problème de stockage, et de moyens.La France n’est pas la seule à travailler à l’archivage de son patrimoine en ligne. “Nous confrontons nos expériences avec les autres pays pour définir les systèmes les plus efficaces”, confie Julien Masanès.L’un des plus aboutis est américain, la Wayback Machine. Ce site a sauvegardé tout ce qu’il pouvait rencontrer sur le Web pendant cinq ans. A son ouverture, les internautes se sont rués dessus, submergeant les serveurs, et prouvant par là même qu’il y a un véritable intérêt pour le patrimoine en ligne.Le projet du dépôt légal du Web français ne devrait pas subir les mêmes avaries puisquil est probable que les archives ne seront pas consultables par tous, en ligne. Ce sera à la LSI de le préciser.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.