Passer au contenu

Le casse-tête de l’archivage

Par souci de sécurité, faut-il passer sa vie à copier et recopier ses données numériques sur des supports à la pointe du progrès ?

Nous avons posé des questions en rapport avec l’archivage à Bernard Ourghanlian, directeur technique et sécurité chez Microsoft France. [Article paru dans L’Ordinateur Individuel n?’ 305 d’avril 2008.]Quelle solution préconisez-vous aujourd’hui pour archiver durablement les données précieuses de toute la famille ?


Archiver durablement un contenu numérique constitue un objectif ambitieux et difficile à atteindre. En effet, paradoxalement, si les technologies de l’information ont fait disparaître les barrières du temps et de l’espace qui
ne constituent plus des obstacles à la distribution d’informations, il reste un problème non résolu, à savoir l’archivage et la disponibilité sur le long terme des documents numériques. Ainsi, on peut considérer que le développement
dans ce domaine s’est fait à l’envers pour ce qui concerne la conservation (chaque nouvelle génération de technologie raccourcit la durée de conservation des contenus, même si elle en améliore la diffusion) :


– les documents stockés sur des parchemins ou des papyrus ont ainsi pu être conservés pendant des milliers d’années ;


– les papiers primitifs à base de fibres de lin ou de vieux chiffons permettent une conservation pendant quelques siècles ;


– l’introduction, au XIXe siècle, du papier industriel à base de pâte à bois pose des problèmes très graves de conservation (bien connus des bibliothécaires) en raison de l’utilisation d’acide pour nettoyer les
particules de bois ;


– l’espérance de vie des contenus numériques se mesure en décennies au plus et, dans la plupart des cas, en années.L’archivage sur le long terme des contenus numériques est devenu un véritable problème, même si ce sujet est souvent traité avec une certaine indifférence. En effet, notre société est dominée par l’idée que la connaissance
d’aujourd’hui remplace et se superpose à la connaissance d’hier, ce qui revient à dire que l’espèce humaine, si elle n’y prend pas garde, risque de perdre sa dimension historique. Cela constitue un problème tout à
fait significatif dans la mesure où l’une des caractéristiques fondamentales de notre espèce ?” à savoir générer de la culture ?” est directement associée avec la possibilité de distribuer de l’information par delà
l’espace, tout en la préservant des atteintes du temps. Mais ceci touche à la sociologie qui n’est pas le sujet abordé par vos questions…Aujourd’hui, la migration est probablement la méthode la plus commune pour préserver les contenus numériques. Les variantes de cette notion de migration consistent :


– à rafraîchir le format des données : passage d’un format de données à un nouveau format de données, par exemple, passer du format de Word 6 à celui de Word 97, puis à celui de Word 2003 pour aboutir au format Open XML qui est
utilisé par défaut aujourd’hui par Office 2007 ;


– mais aussi à migrer les données numériques d’un support à un autre : transformer ses anciens films super-8 dans un format numérique, scanner ses vieilles diapositives, passer d’une disquette 8 pouces à une disquette
5,25 pouces, puis à une disquette 3,5 pouces, puis à un CD, puis à un DVD… en raison de l’obsolescence du média et de l’impossibilité de trouver encore des lecteurs de vieilles disquettes (par exemple).Les problèmes posés par ces approches sont nombreux :


– éventuelle perte d’authenticité (exemple du passage d’un vinyle 33 tours à un CD, bien connu des mélomanes) ;


– efforts pour effectuer la migration qui sont loin d’être négligeables (par exemple la transformation d’un film au format super-8 ou la récupération d’un vieux vinyle pour l’encoder en numérique et le stocker
sur un CD ou un DVD qui prennent un temps considérable) ;


– coûts associés (dépendant aussi du volume des données à traiter et au coût éventuel de personnel associé à ces opérations de migration).D’une manière générale, l’objectif de ces opérations consiste à essayer de garder accessibles les documents (les films, les photos) originaux, ce qui nécessite généralement d’avoir un environnement informatique à
jour.Il existe également un autre moyen de conservation des données, l’émulation (ou la virtualisation). Les données numériques sont ainsi préservées en l’état. Cette technique nécessite que les données soient déjà numériques
et non analogiques. L’émulation consiste à recréer l’environnement d’un ordinateur compatible avec le format des données. Parmi les technologies utilisées dans ce cadre, on peut trouver notamment les machines virtuelles qui
permettent, par exemple, de démarrer une version de Windows 1.0 si c’est la seule version de système d’exploitation sur laquelle le format original des données peut être visualisé (par un outil logiciel qui n’existait que sur
cet environnement).D’une façon générale, ces méthodes restent complexes, en raison de l’énorme variété des formats de données possibles. Pour essayer de diminuer cette complexité, l’apparition des langages de description de documents
(au sens large), fondés sur des balises, constituent un progrès décisif. En ce sens, on peut considérer que XML, moyennant la possibilité de pouvoir utiliser des métadonnées permettant de décrire en quoi consistent les documents, constitue
certainement un très grand progrès, probablement déterminant.Pour répondre plus directement à votre question, aujourd’hui, si on veut se donner une chance de maximiser les données de sa famille, il faut impérativement utiliser :


– des formats standardisés ou normalisés : Open XML pour les documents, WMA ou MP3 pour les musiques ou les sons ou HD Photo (JPEG XR ) pour les photos. J’avoue préférer
nettement les formats sans perte tels que WMA Lossless qui compresse les signaux audio sans perte de qualité par rapport à l’original en utilisant un taux de bits variable. D’une façon générale, pour des objectifs d’archivage,
l’utilisation de format sans perte me paraît indispensable. De plus, tout utilisateur d’appareil photo numérique sait qu’il est prudent de pouvoir également conserver ses photos en format RAW (l’équivalent du négatif pour
les photos en argentique).


Malheureusement, ces formats sont, dans la quasi-totalité des cas, des formats propriétaires non documentés. L’utilisation du format HD Photo (avec ou sans perte) permet de stocker un certain nombre d’informations contenues
dans les formats RAW : les données de l’image, une couche alpha optionnelle (transparence), les métadonnées standard, optionnelles, optionnelles XMP (codé en XML), etc. mais, hélas, pas toutes. En l’état, l’utilisation de ce format HD
Photo, dont les spécifications sont ouvertes et à la disposition de tous, constitue un moindre mal, faute de savoir préserver de façon documentée toutes les informations contenues dans un format RAW.


– des médias de type CD ou DVD. Si possible, prévoyez deux copies en sachant que, si ces technologies sont remises en cause dans le futur, il ne faudra pas attendre la disparition des lecteurs de ces formats pour réaliser
les opérations de migration de données dont je parlais ci-dessus (en l’état, je ne suis pas certain que le DVD en tant que support d’archivage soit remplacé rapidement par le Blu-ray, mais je peux me tromper).


En tout état de cause, dans 20 ans, il y a de très fortes chances pour que les DVD aient disparu pour être remplacés par d’autres types de stockage (NEMS, hologrammes,…)En outre, il ne faut pas confondre sauvegarde et archivage. Les données numériques, quelle que soit leur nature, doivent aussi être sauvegardées, par exemple en utilisant un logiciel tel que OneCare associé à son service sur Internet
qui permet de
conserver ses photos en ligne. L’espace offert par OneCare permet de stocker jusqu’à 10 Go de photos ce qui peut s’avérer
insuffisant. Dans ce cas, il vaut mieux prévoir un disque amovible.Quelle serait la méthode idéale pour être sûr de pouvoir consulter ses documents dans une vingtaine d’années ?


Très franchement, je n’en sais rien car parler d’une méthode ‘ idéale ‘ me paraît bien ambitieux en l’état actuel de la technologie. Au rythme où vont les choses, il est en effet très probable que les logiciels, les
supports physiques et les formats auront largement évolué d’ici une vingtaine d’années. Les deux grandes catégories de méthodes citées plus haut (migration et émulation) devront être utilisées une ou plusieurs fois afin de préserver le
patrimoine numérique tant à la maison qu’en entreprise…


Pour éviter que ces problèmes ne soient trop difficiles à résoudre dans le futur, il est à mon sens indispensable de se focaliser sur des formats standardisés ou normalisés et sur des supports non exotiques. Par ailleurs, il faut au
maximum avoir recours aux métadonnées (en général supportées en standard dans ces formats ?” c’est le cas par exemple de HD Photo et de Open XML) pour savoir ensuite retrouver son patrimoine numérique sans passer des semaines à le
chercher…Le laboratoire de Microsoft a-t-il des projets dans ses cartons pour garantir la pérennité de nos données numériques ?


C’est un sujet sur lequel nous travaillons effectivement au niveau de Microsoft Research, mais il est encore prématuré d’en parler. Le projet MyLifeBits constitue un élément de réponse au problème mentionné ci-dessus de
recherche aisée d’informations à travers le recours massif aux annotations, à l’utilisation d’une base de données, etc. Ceci étant, MyLifeBits se préoccupe essentiellement de stocker une vie numérique dans son intégralité et
d’en faciliter la consultation.


En revanche, il ne se soucie pas de la problématique liée à l’obsolescence des médias de stockage de ces informations. Pour résoudre ce problème, les opérations de migration sont, hélas, nécessaires avec la difficulté associée de
devoir migrer des téraoctets de données. Au sens de MyLifeBits, certaines des informations numériques (une photo, une vidéo, etc.) peuvent être stockées comme des BLOBs (Binary Large OBjects) ou des pointeurs vers des fichiers ; ceci permet de
se déplacer très facilement dans sa vie numérique, sans nécessairement dépendre du format physique ou logique de la base de données en tant que telle.


Pour autant, si l’on utilise une base de données SQL Server et que celle-ci a évolué de manière considérable dans une vingtaine d’années, il faudra certainement migrer tout ou partie de cette base de données vers la
nouvelle version, à moins de reposer sur des techniques de machines virtuelles. En ce sens, MyLifeBits permet de résoudre la problématique du déplacement dans le temps au sein de sa vie numérique, mais non les problèmes plus globaux
d’archivage, d’obsolescence de systèmes et de logiciels, de changement de formats de données, etc.Où en est le projet MyLifeBits ?


Le projet MyLifeBits de Gordon Bell continue sa vie avec succès. Vous pourrez trouver en ligne
toutes les informations à jour (il y en a vraiment beaucoup) sur ce projet. Vous trouverez également en ligne
toute une série de démonstrations sur ce sujet.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


François Bedin