Sécuriser les données en les dupliquant sur deux sites distants

Recovery Time Objective (RTO) et Recovery Point Objective (RPO): deux concepts sans cesse rabâchés par les tenants de la sauvegarde-restauration depuis le mois de septembre dernier. Mais deux concepts, il faut le reconnaître, fort utiles dans le cadre d’une stratégie de récupération des données après sinistre. Le premier paramètre, le RTO, mesure le temps maximum s’écoulant avant que l’entreprise ne reprenne son activité après un accident. Le second, le RPO, porte sur le volume maximum de données qui peut être perdu sans courir à la catastrophe. Il détermine ainsi la fréquence des sauvegardes à mener. Sauvegarde sur bande, site miroir, réplication, externalisation du stockage : le niveau de priorité accordé à l’un et l’autre de ces deux indicateurs aidera les entreprises à définir, voire à repenser, leur politique de sécurisation des données.

Opter au minimum pour la sauvegarde sur bandes

Lorsque le RTO n’est pas crucial ?” autrement dit, lorsqu’il ne se chiffre pas en minutes mais en dizaines d’heures ?”, la reprise d’activité peut passer par la relecture des informations stockées sur bandes. Dans l’hypothèse d’une destruction du site de production, un jeu de cartouches est entreposé en sûreté sur un site distant, soit chez un prestataire, soit dans un site secondaire de l’entreprise suffisamment éloigné. C’est la méthode la plus couramment adoptée par les petites entreprises. Mais elle reste aussi d’actualité dans les banques et les compagnies d’assurance, dont la plupart sont aujourd’hui équipées d’un système de réplication. Certaines de ces grosses structures ont même installé une autre bandothèque sur un second site. Les données sont alors automatiquement répliquées entre les serveurs de sauvegarde disposés dans chacune des salles.En cas de sinistre, la restauration est effectuée par les outils de Tivoli, de Veritas, d’Atempo ou encore de Legato. Chacun contient un fichier dressant la liste des opérations à mener au démarrage sur le site de secours. Les champs renferment des informations logistiques : quelles applications doivent être remontées en priorité, où placer les serveurs, quelle organisation humaine est à déployer, etc. Le fichier permet également de reconfigurer le logiciel de sauvegarde et d’y associer les catalogues existants. Idéalement, la restauration s’opère au niveau du site de secours, pourvu que celui-ci soit équipé d’une bandothèque et de serveurs en assez grand nombre pour permettre une reprise d’activité. Sans compter toutes les ressources humaines associées.Seulement voilà, peu d’entreprises ont les moyens de déployer une telle infrastructure. Elles font donc appel à des spécialistes de la restauration tels Comdisco ?” récemment racheté par Sunguard ?”, IBM, Guardian IT ou HP. Munis des médias de sauvegarde, ces prestataires s’engagent auprès des entreprises à remettre en activité leur système informatique dans des délais spécifiés par contrat. L’offre se décline en plusieurs formules : de la pièce totalement équipée en serveurs et postes de travail à la “salle blanche” (vide, mais prête à l’emploi), en passant par le kit informatique de secours transporté par camion. “Par obligation légale, beaucoup de petites administrations nous louent en permanence des salles blanches que nous équipons dans les deux jours en cas de besoin”, explique-t-on chez Comdisco. “Selon le type de contrat, les serveurs que nous mettons à la disposition des entreprises victimes d’un sinistre sont soit mutualisés, soit dédiés”, précise Philippe Roux, responsable marketing chez HP Services. Pour accélérer la remise en état du système, les prestataires prévoient parfois de restaurer régulièrement les données sur disque. Le travail en cas de sinistre devient ainsi minime.

Mieux, choisir la réplication à distance

Aujourd’hui, bon nombre d’organismes financiers ont encore recours à ces services comme “back-up de second niveau”. Pourtant, ils ne peuvent s’en satisfaire pleinement. La formule ne résiste pas à de fortes exigences. “Si les sociétés qui se partagent les serveurs du prestataire subissent un sinistre au même moment, la situation peut devenir problématique, reconnaît Michel Delcourt, responsable de production du Crédit du Nord. Il nous fallait environ douze heures pour redémarrer avec notre prestataire. La complexité des traitements informatiques et l’augmentation des contraintes horaires nous ont poussés, il y a trois ans, à déployer une architecture basée sur la réplication des données”.Avec ce type de prestation, le RPO, autrement dit, le volume de données perdues au démarrage du site de secours, dépend toutefois directement de la fréquence des sauvegardes sur bande. Or celles-ci ne peuvent être effectuées toutes les heures. Dans le meilleur des cas, elles interviennent chaque demi-journée. La perte des données s’étale donc sur la même période. Bien sûr, les mécanismes de snapshot permettent de récupérer des versions antérieures de fichiers “flashés” à intervalles réguliers sur une journée. Mais cette restauration reste locale, confinée au site de production. La destruction de ce dernier irait donc de paire avec celle du snapshot. Un niveau de sécurisation plus élevé implique donc la réplication des données sur un site distant. L’enjeu ? Réduire au maximum à la fois le RTO et le RPO par l’envoi en temps réel des données de la baie du site primaire sur celle du site miroir, elle-même rattachée à un serveur (actif ou non). En cas de sinistre du premier site, la seconde salle prend instantanément le relais. Malgré tout, ce lourd dispositif comporte plusieurs failles. Et ce, essentiellement pour deux raisons. D’abord, la nature même de la réplication. Le mode synchrone assure une parfaite symétrie entre les deux sites ?” d’où un RPO quasi nul ?”, mais ralentit l’activité du serveur. En asynchrone, les performances sont meilleures, mais certaines données risquent d’être perdues lors du basculement sur le site distant.

Le nec plus ultra, le cluster à tolérance de pannes

La seconde faille du dispositif de réplication à distance vient de ce que la reprise d’activité n’est pas toujours instantanée, sauf à mettre en ?”uvre un cluster d’applications à tolérance de pannes. Le déploiement de tels clusters, proposés notamment par IBM, HP, Veritas ou Legato, constitue donc l’étape ultime de la stratégie de sauvegarde. Ces outils détectent les coupures entre sites et assurent l’activation des applications sur le site secondaire. Mais surtout, ils automatisent l’exécution des scénarios de redémarrage en cas de défaillance d’un des n?”uds. Exemple : si le site A est hors d’usage, le site B prend le relais et réplique désormais ses données sur le site C. Ou encore, si le serveur principal tombe en panne, celui du site secondaire redémarre en attaquant les disques du site primaire. Sans cluster, toutes ces étapes sont effectuées “manuellement”. La reprise d’activité se trouve, par conséquent, retardée.Coûteux, ces deux derniers niveaux de sécurité ?” à savoir, réplication des données entre sites miroirs et cluster d’applications ?” ne peuvent être mis en ?”uvre que par les grandes entreprises. Si elles ne veulent pas être pénalisées par des RTO et RPO trop élevés, les plus petites sociétés pourront se tourner vers les offres d’infogérance proposées par les start up de la collocation ou les prestataires spécialisés dans les services de stockage externalisé.

Collocation : l’autre solution : le stockage en infogérance

Pour les entreprises qui ne veulent pas déployer une politique de sauvegarde trop coûteuse, le salut peut venir de l’infogérance. Depuis un à deux ans, des prestataires de collocation ont ainsi fait leur apparition ?” IX Europe, Redbus ou encore Tele-city, par exemple. Chacun de ces nouveaux venus propose des espaces associant réseaux, serveurs et stockage. A l’origine, ces espaces étaient destinés aux start up. Mais depuis la faillite de celles-ci, les sociétés de collocation ciblent les SSII, voire les acteurs traditionnels de l’infogérance, comme Atos, EDS ou Cap Gemini, qui exploitent, eux, les applications.

La formule peut se révéler bénéfique pour le client final, puisque ces spécialistes de la collocation ont généralement noué des partenariats avec plusieurs opérateurs. D’où des prix certainement avantageux dans une optique de réplication des données entre sites. En France, IX Europe s’est, par ailleurs, associé au fournisseur de services de stockage Storage Telecom pour disposer d’une offre de sauvegarde, de stockage et de réplication de données à distance.

Technologie : réplication en mode synchrone ou asynchrone, le choix dépend de la distance

Lorsque les informations des deux sites ne sont pas parfaitement symétriques, les données stockées sur celui de secours risquent de manquer de cohérence.

Si elle réduit considérablement le volume des données perdues et le temps de reprise d’activité en cas de sinistre, la réplication souffre de plusieurs limitations. En mode synchrone, par exemple, le serveur du site primaire attend l’acquittement du contrôleur de la seconde baie avant de poursuivre ses opérations. Certes, à tout moment, les données sur les deux sites sont identiques, mais l’acquittement risque de ralentir l’activité du serveur. Ce type de réplication est donc utilisé sur de courtes distances (moins de 20 kilomètres en moyenne). C’est le cas pour Cetelem et le Crédit du Nord. Chacun loue de la fibre nue pour transférer les données de baie à baie, l’un utilisant PPRC, d’IBM, l’autre SRDF, d’EMC.

En mode asynchrone, la distance n’est plus une limite

De son côté, le mode asynchrone s’affranchit de ces acquittements. Le serveur poursuit son activité sans se préoccuper des données reçues par le contrôleur de la baie secondaire. De sorte que la distance n’apparaît plus dans ce cas comme un facteur limitant. En contrepartie, un décalage peut intervenir entre les deux sites. Les écritures sur les unités distantes ne respectent pas, en effet, l’ordre initial d’écriture sur les unités du site primaire. D’où un certain manque de cohérence, et des difficultés de redémarrage éventuelles sur le site secondaire dans l’hypothèse où l’intégralité des données n’a pu être transférée.

Pour assurer cette cohérence, les entreprises peuvent tabler sur une capture d’image synchrone en local, l’envoi en asynchrone sur le site miroir des mises à jour et, à nouveau, la réalisation locale d’une image des données. Ainsi, à tout moment, et quel que soit le niveau du sinistre, le site distant dispose d’une base de données cohérente. Reste que la formation de ces deux images requiert le doublement des espaces disque.

Philippe Nicolas (Snia) : ” Trouver un compromis entre distance et qualité du signal “

Depuis les événements qui ont frappé coup sur coup les Etats-Unis et Toulouse, nous avons perçu deux tendances. D’abord, les entreprises souhaitent ?” quand cela n’a pas encore été fait ?” placer en lieu sûr les cartouches issues de leurs sauvegardes. Soit chez un prestataire, soit dans leurs propres locaux, pourvu qu’ils soient suffisamment distants. Ensuite, celles qui disposent dun système de réplication, ou qui comptent en déployer un, veulent maintenant éloigner au maximum les deux sites. Mais il faudra trouver un compromis entre la qualité du signal et la distance. Car plus cette dernière augmente, plus le débit des données répliquées se trouve amoindri. La dégradation du signal risque alors de provoquer un décalage important entre les deux sites. En cas de destruction du site primaire, cet écart entraînerait inévitablement une perte de données.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Vincent Berdot