Recovery Time Objective (RTO) et Recovery Point Objective (RPO): deux concepts sans cesse rabâchés par les tenants de la sauvegarde-restauration depuis le mois de septembre dernier. Mais deux concepts, il faut le reconnaître, fort utiles dans le cadre d’une stratégie de récupération des données après sinistre. Le premier paramètre, le RTO, mesure le temps maximum s’écoulant avant que l’entreprise ne reprenne son activité après un accident. Le second, le RPO, porte sur le volume maximum de données qui peut être perdu sans courir à la catastrophe. Il détermine ainsi la fréquence des sauvegardes à mener. Sauvegarde sur bande, site miroir, réplication, externalisation du stockage : le niveau de priorité accordé à l’un et l’autre de ces deux indicateurs aidera les entreprises à définir, voire à repenser, leur politique de sécurisation des données.
Opter au minimum pour la sauvegarde sur bandes
Lorsque le RTO n’est pas crucial ?” autrement dit, lorsqu’il ne se chiffre pas en minutes mais en dizaines d’heures ?”, la reprise d’activité peut passer par la relecture des informations stockées sur bandes. Dans l’hypothèse d’une destruction du site de production, un jeu de cartouches est entreposé en sûreté sur un site distant, soit chez un prestataire, soit dans un site secondaire de l’entreprise suffisamment éloigné. C’est la méthode la plus couramment adoptée par les petites entreprises. Mais elle reste aussi d’actualité dans les banques et les compagnies d’assurance, dont la plupart sont aujourd’hui équipées d’un système de réplication. Certaines de ces grosses structures ont même installé une autre bandothèque sur un second site. Les données sont alors automatiquement répliquées entre les serveurs de sauvegarde disposés dans chacune des salles.En cas de sinistre, la restauration est effectuée par les outils de Tivoli, de Veritas, d’Atempo ou encore de Legato. Chacun contient un fichier dressant la liste des opérations à mener au démarrage sur le site de secours. Les champs renferment des informations logistiques : quelles applications doivent être remontées en priorité, où placer les serveurs, quelle organisation humaine est à déployer, etc. Le fichier permet également de reconfigurer le logiciel de sauvegarde et d’y associer les catalogues existants. Idéalement, la restauration s’opère au niveau du site de secours, pourvu que celui-ci soit équipé d’une bandothèque et de serveurs en assez grand nombre pour permettre une reprise d’activité. Sans compter toutes les ressources humaines associées.Seulement voilà, peu d’entreprises ont les moyens de déployer une telle infrastructure. Elles font donc appel à des spécialistes de la restauration tels Comdisco ?” récemment racheté par Sunguard ?”, IBM, Guardian IT ou HP. Munis des médias de sauvegarde, ces prestataires s’engagent auprès des entreprises à remettre en activité leur système informatique dans des délais spécifiés par contrat. L’offre se décline en plusieurs formules : de la pièce totalement équipée en serveurs et postes de travail à la “salle blanche” (vide, mais prête à l’emploi), en passant par le kit informatique de secours transporté par camion. “Par obligation légale, beaucoup de petites administrations nous louent en permanence des salles blanches que nous équipons dans les deux jours en cas de besoin”, explique-t-on chez Comdisco. “Selon le type de contrat, les serveurs que nous mettons à la disposition des entreprises victimes d’un sinistre sont soit mutualisés, soit dédiés”, précise Philippe Roux, responsable marketing chez HP Services. Pour accélérer la remise en état du système, les prestataires prévoient parfois de restaurer régulièrement les données sur disque. Le travail en cas de sinistre devient ainsi minime.
Mieux, choisir la réplication à distance
Aujourd’hui, bon nombre d’organismes financiers ont encore recours à ces services comme “back-up de second niveau”. Pourtant, ils ne peuvent s’en satisfaire pleinement. La formule ne résiste pas à de fortes exigences. “Si les sociétés qui se partagent les serveurs du prestataire subissent un sinistre au même moment, la situation peut devenir problématique, reconnaît Michel Delcourt, responsable de production du Crédit du Nord. Il nous fallait environ douze heures pour redémarrer avec notre prestataire. La complexité des traitements informatiques et l’augmentation des contraintes horaires nous ont poussés, il y a trois ans, à déployer une architecture basée sur la réplication des données”.Avec ce type de prestation, le RPO, autrement dit, le volume de données perdues au démarrage du site de secours, dépend toutefois directement de la fréquence des sauvegardes sur bande. Or celles-ci ne peuvent être effectuées toutes les heures. Dans le meilleur des cas, elles interviennent chaque demi-journée. La perte des données s’étale donc sur la même période. Bien sûr, les mécanismes de snapshot permettent de récupérer des versions antérieures de fichiers “flashés” à intervalles réguliers sur une journée. Mais cette restauration reste locale, confinée au site de production. La destruction de ce dernier irait donc de paire avec celle du snapshot. Un niveau de sécurisation plus élevé implique donc la réplication des données sur un site distant. L’enjeu ? Réduire au maximum à la fois le RTO et le RPO par l’envoi en temps réel des données de la baie du site primaire sur celle du site miroir, elle-même rattachée à un serveur (actif ou non). En cas de sinistre du premier site, la seconde salle prend instantanément le relais. Malgré tout, ce lourd dispositif comporte plusieurs failles. Et ce, essentiellement pour deux raisons. D’abord, la nature même de la réplication. Le mode synchrone assure une parfaite symétrie entre les deux sites ?” d’où un RPO quasi nul ?”, mais ralentit l’activité du serveur. En asynchrone, les performances sont meilleures, mais certaines données risquent d’être perdues lors du basculement sur le site distant.
Le nec plus ultra, le cluster à tolérance de pannes
La seconde faille du dispositif de réplication à distance vient de ce que la reprise d’activité n’est pas toujours instantanée, sauf à mettre en ?”uvre un cluster d’applications à tolérance de pannes. Le déploiement de tels clusters, proposés notamment par IBM, HP, Veritas ou Legato, constitue donc l’étape ultime de la stratégie de sauvegarde. Ces outils détectent les coupures entre sites et assurent l’activation des applications sur le site secondaire. Mais surtout, ils automatisent l’exécution des scénarios de redémarrage en cas de défaillance d’un des n?”uds. Exemple : si le site A est hors d’usage, le site B prend le relais et réplique désormais ses données sur le site C. Ou encore, si le serveur principal tombe en panne, celui du site secondaire redémarre en attaquant les disques du site primaire. Sans cluster, toutes ces étapes sont effectuées “manuellement”. La reprise d’activité se trouve, par conséquent, retardée.Coûteux, ces deux derniers niveaux de sécurité ?” à savoir, réplication des données entre sites miroirs et cluster d’applications ?” ne peuvent être mis en ?”uvre que par les grandes entreprises. Si elles ne veulent pas être pénalisées par des RTO et RPO trop élevés, les plus petites sociétés pourront se tourner vers les offres d’infogérance proposées par les start up de la collocation ou les prestataires spécialisés dans les services de stockage externalisé.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.