Quelques réflexions sur la sauvegarde
En février 2014, j’ai écrit un article intitulé « Sauvegardez vos données personnelles ! », coup de gueule en réaction à la négligence d’une personne de mon entourage que j’avais pourtant alertée. Sept ans plus tard, il me semble utile de partager mon expérience, mon analyse du problème et les pratiques qui en découlent.
Quels risques devons-nous anticiper ?
Le plus évident, le plus banal, est l’effacement ou la corruption accidentelle de données. Toute copie régulière de données semble nous préserver de ce risque, mais pour le parer efficacement, il convient de réaliser de nouvelles copies des fichiers, et non d’écraser les précédentes copies. En effet, on se rend rarement compte de la corruption d’un fichier sur l’instant et si on écrase une sauvegarde par une nouvelle, on remplace la copie du fichier sain par une du fichier corrompu, et le jour où on se rend compte du problème, on pleure. Il faut donc « historiser » les copies, ce que fait tout logiciel de sauvegarde digne de ce nom. Il conserve les copies précédentes un certain temps ou en un certain nombre d’exemplaires, et supprime au fil de l’eau les plus anciennes.
L’autre problème fréquent est la panne matérielle. Elle peut avoir une cause intrinsèque (disque dur décidant une reconversion dans la gravure de couche ferromagnétique), mais aussi extrinsèque : foudroiement, court-circuit… On se prémunit de la panne d’un support en effectuant la sauvegarde sur un autre support. On peut protéger son matériel du foudroiement par un bon onduleur ou une prise para-foudre, mais ces moyens ne protègent pas du court-circuit. Or, j’ai narré dans mon précédent article sur le sujet, la mésaventure survenue à un collègue, dont le PC a été victime d’un court-circuit qui a grillé le disque dur interne, mais aussi le disque dur externe sur lequel il effectuait ses sauvegardes et qu’il laissait branché en permanence sur son PC. On en déduit que notre sauvegarde doit être faite sur un support isolé le plus possible du système sauvegardé. Les supports externes (clé USB, disque dur) ne doivent donc être connectés que le temps nécessaire à la sauvegarde. Mais les plus pessimistes d’entre nous pressentent déjà, à la lumière de l’anecdote précédente, qu’ils pourraient jouer de malchance et être victimes d’un court-circuit en pleine sauvegarde. On anticipe ce coup du sort en réalisant plusieurs sauvegardes sur des supports différents, non connectés simultanément.
Le cambriolage est un problème moins fréquent, mais qu’ont malheureusement vécu pas mal d’entre nous. Si nos moyens de sauvegarde trônent à côté de notre machine, ils risquent fort d’être volés en même temps qu’elle. Il faut donc à minima soustraire à la vue les supports de sauvegarde, mais leur stockage sur un site distant offre de meilleures garanties de préservation, au prix d’une organisation plus complexe. Le jeu en vaut-il la chandelle ? Beaucoup pensent que « pfeeuuu…, tout se faire piquer, ce serait vraiment pas de bol ! »
La destruction du logement n’est pas si exceptionnelle que cela. Deux de mes connaissances ont vu leur maison entièrement détruite par un incendie et une par une inondation. Face à ce risque, la nécessité de ne pas colocaliser toutes les copies de nos données devient évidente, du moins à mes yeux.
Un dernier risque, et pas des moindres à notre époque, est l’acte malveillant, la cyber-attaque. Ne croyez pas qu’il ne concerne que les entreprises, nous pouvons tous en faire les frais. Les crackers ne travaillent pas « à la mimine », ils utilisent des outils qui sondent, attaquent, prennent le contrôle, détruisent ou chiffrent les données à l’aveugle. Il n’y a pas de petit profit dans le rançonnage et multiplier les victimes augmente les gains. Les crackers les plus avertis utilisent des outils qui ne se révèlent pas tout de suite. Ils prennent le temps de se diffuser sur le réseau local, d’affecter tous les supports connectés sur les machines, afin d’acculer la victime à payer pour récupérer ses données. Pour être honnête, je n’arrive pas à concevoir de stratégie de sauvegarde susceptible de me prémunir d’une telle attaque. J’essaie juste d’agir en amont, en durcissant mes systèmes, en évitant de faire n’importe quoi et en croisant les doigts pour que je détecte l’attaque avant que tous mes supports de sauvegarde ne soient affectés.
Que devons-nous sauvegarder ?
Certainement pas tout ! cela prendrait trop de place, demanderait trop de temps. Nos disques durs se remplissent progressivement de scories sans la moindre importance.
Ce qui me semble primordial :
-
Ce que je ne pourrais pas reproduire : mes photographies, mes vidéos, mes productions « littéraires et artistiques » et techniques, sans considération de leur mérite. Je mets dans cette catégorie les bouts de code que j’ai développés, le contenu de mes sites web et le support de mes conférences, mais aussi mes archives de mail (les miennes remontent à 1999, j’ai perdu les plus vieilles) et toutes les notes que j’ai pu semer ici et là, en fonction de l’humeur du moment. Est-il vraiment nécessaire de préciser que j’écris « mes », mais qu’il faut comprendre « ceux/celles de tous les membres de ma famille » ?
-
Mes « secrets » : mes pléthoriques identifiants et mots de passe (je les gère via KeePassXC), mes clés GnuPG et SSH, et les informations confidentielles que je chiffre via ces clés.
-
Les informations dont la reconstitution serait terriblement chronophage et/ou rébarbative : mes répertoires d’adresses, mes bulletins de salaire et autres documents administratifs importants, les bulletins scolaires de mes enfants (ils s’en amuseront certainement dans quelques années).
-
Les données et le paramétrage des applications dont les services et le contenu font en quelque sorte partie de mon patrimoine immatériel (Digikam, Piwigo, Dokuwiki et Gitlab en ce qui me concerne).
Ce qui me semble utile :
-
Les ressources (documents, articles, photographies…) trouvées sur Internet et qui constituent des documents de référence au regard de mes centres d’intérêt et de mes préoccupations. Enregistrer un signet dans mon navigateur ne suffit pas à en garder trace, car l’expérience montre que les sites web se réinventent et disparaissent aussi facilement qu’ils apparaissent. Internet est un hyperactif amnésique !
-
La configuration du système d’exploitation et des applications de mes machines (postes de travail, serveurs). Je pourrais les reconstituer, mais autant m’éviter cette tâche ingrate et parfois hasardeuse.
-
Les données et le paramétrage des applications non critiques tournant sur mes serveurs.
-
Utilisant des systèmes GNU/Linux Debian, sauvegarder la liste des paquets installés sur mes systèmes me fera gagner du temps lors d’une restauration. Cette simple liste permettra à l’outil d’installation de reproduire un système « à l’identique », les données et configurations sauvegardées par ailleurs (cf. points précédents) feront le reste. Cette liste m’épargne la sauvegarde complète du système, d’autant plus lourde que pour des raisons de sécurité, mes systèmes sont mis à jour une à plusieurs fois par jour.
Ce qui me semble inutile :
- Tout le reste. :) J’inclus dans cette catégorie les clones de dépôts Git disponibles sur Github, Gitlab et tutti quanti, les « copies de sauvegarde » de vos films préférés (je n’en ai pas, car la VOD suffit à satisfaire ma consommation modérée de films et ne me coute pas très cher au final, mais certains de mes amis leur consacrent des NAS entiers). Entrent aussi aussi dans cette catégorie les images et volumes Docker, les images des machines virtuelles. Les données manipulées par ces machines et ces conteneurs que je pourrais vouloir conserver sont stockées à l’extérieur de ces images. Ainsi, la perte de ces images ne serait que très modérément contrariante et je peux me permettre de les ignorer vu leur taille imposante.
Où sauvegarder ?
Voilà la question épineuse, car elle implique des supports ou un service fourni par un tiers, et donc un cout qui va largement conditionner la stratégie de sauvegarde. Ce cout sera proportionnel au volume de données sauvegardées, à la profondeur de l’historique conservé et au nombre de copies réalisées. Il peut donc rapidement s’envoler. Un compromis est à trouver en fonction des moyens de chacun et des enjeux que revêtent les données concernées.
-
Clé USB
Les clés USB offrent un espace de stockage toujours plus grand dans une enceinte des plus compactes. On peut les avoir en permanence sur soi, les oublier et c’est bien là le problème : elles se perdent facilement. Mais mon principal grief est tout autre. Outre le fait qu’un disque dur offre bien plus d’espace, les clés USB se révèlent fragiles. Plusieurs de mes clés ont déjà cessé de fonctionner du jour au lendemain, sans que je sache pourquoi. Elles constituent donc à mes yeux un support peu fiable. Mais leur faible cout est séduisant et faire deux ou trois copies de ses données les plus précieuses sur autant de clés USB est déjà une excellente pratique, infiniment préférable à l’absence de sauvegarde.
-
Disque dur interne
Un disque dur interne (i.e. un second disque dur installé dans le PC et dédié à la sauvegarde) présente quelques avantages : disponibilité immédiate, espace de stockage confortable, impossible à perdre. Mais comme expliqué en début d’article, il peut être détruit ou volé en même temps que la machine. Si une sauvegarde peut être effectuée sur un disque interne, il convient d’en faire d’autres sur des supports externes.
-
Disque dur externe
En cette fin 2020, un disque externe mécanique de marque réputée et d’une capacité de 2 To coute aux alentours des 90 €. Les miens ont une capacité moindre, mais ils m’ont permis jusqu’à présent à conserver un historique de 18 mois de mes données essentielles au rythme moyen d’une sauvegarde hebdomadaire. J’ai trois disques externes dédiés à la sauvegarde : un sur moi, un à la maison et un sous clé au bureau. Bien évidemment, ce stockage multi-sites m’amène à intervertir régulièrement le disque que j’ai sur moi et celui que je conserve au bureau pour faire tourner les supports.
Un conseil qui vaut aussi pour les clés USB : chiffrez vos disques durs externes, à moins que l’outil de sauvegarde que vous utilisez ne chiffre lui-même les sauvegardes. En effet, un disque externe ou une clé USB se perdent ou se volent très facilement. Il serait dommage que toutes vos données personnelles se retrouvent dans les mains de tiers, car je vous l’assure, nous avons tous des choses à cacher, à commencer par notre vie privée, qui ne regarde que nous !
Pour en revenir au support lui-même, un « si faible » espace de stockage ferait glousser certains de mes amis, photographes stakhanovistes qui accumulent des To d’images. Je le reconnais, la capacité réduite d’un seul disque est bien la limite la plus pénalisante de ma stratégie, l’autre étant que le disque doit être branché pour que la sauvegarde puisse se faire, ce qui tue dans l’œuf toute velléité d’automatisation.
-
NAS chez soi
Pour disposer d’un espace de stockage plus généreux, il faut envisager un investissement sensiblement plus important et acquérir un NAS ou toute autre machine pouvant faire office de serveur de stockage. Si le logiciel libre n’est pas un prérequis pour vous, je vous recommande chaudement la marque Synology. Si un NAS peut offrir l’espace nécessaire aux plus gourmands d’entre nous, il présente quelques inconvénients :
-
le prix : comptez 450 € pour 3,6 To utiles en RAID1, 1200 € pour 10,8 To utiles en RAID5 et des milliers d’euros pour une configuration dont vous n’avez certainement pas besoin ;
-
l’unicité de la sauvegarde (sauf à acheter plusieurs NAS), même si le RAID rend ce système de stockage plus résilient qu’un simple disque dur ;
-
la colocalisation des copies si, comme le font la plupart des gens, vous installez votre NAS dans votre appartement.
-
-
Service de sauvegarde en ligne
Les services de sauvegarde en ligne semblent avoir tout pour plaire. Vous n’avez pas à vous préoccuper de l’administration de ces moyens, la sauvegarde est distante, tout prestataire sérieux vous garantira la duplication des données et donc la résilience de la sauvegarde, etc. En outre, la facturation annuelle, voire mensuelle du service rend la pilule moins amère. C’est bien simple, on se demande pourquoi je n’ai pas encore opté pour cette solution.
Si je ne l’ai pas fait, c’est parce qu’il y a un loup, voire une meute entière. Primo, la plupart de ces services nécessitent le recours à un logiciel spécifique fourni par le prestataire. Ce logiciel est propriétaire et n’est bien souvent disponible que pour les systèmes d’exploitation MS-Windows, MacOS, Android et iOS. Ce sont là deux caractéristiques rédhibitoires à mes yeux. Ensuite, les prestataires oublient de s’étendre sur les faiblesses de leur offre. Certains ne conservent qu’un historique très court de vos fichiers (quelques semaines), d’autres ne les historisent même pas (toute nouvelle version d’un fichier écrase la précédente). Ces pratiques fragilisent excessivement la sauvegarde. Certains prestataires annoncent une liste de fonctions et de caractéristiques jubilatoire, mais ils négligent de préciser que ces fonctions sont optionnelles et payantes, détail qui change radicalement le prix. Certains oublient de vous préciser que la bande passante est sérieusement bridée, d’autres que la récupération des données manque de souplesse ou relève de l’exercice d’ascétisme.
Mais ce qui me chagrine le plus dans l’affaire, c’est paradoxalement ce qui plait à beaucoup de gens : le moyen de sauvegarde ne m’appartient pas, je ne le contrôle pas. Certes, je suis donc déchargé de son administration, mais le revers de la médaille est que si j’arrête de payer, je n’ai plus accès à ma sauvegarde. Et même si je paie, le prestataire peut à tout moment bloquer mon accès aux données, voire les détruire. Perdre la maitrise de mes sauvegardes est pour moi une perspective des plus angoissantes. Voilà pourquoi je n’aurai sans doute jamais recours à ces services en ligne.
-
NAS distant
Par « NAS distant », j’entends NAS ou autre espace de stockage nous appartenant, mais installé ailleurs que dans notre logement.
Le site que vous êtes en train de consulter est par exemple servi par une machine m’appartenant, installée dans une salle de l’hébergeur associatif Tetaneutral. Ce choix a bien évidemment un cout (20 €/mois et une cotisation de 20 €/an), auquel s’ajoute celui du matériel, mais c’est un choix militant, non un choix économique. Pour répondre à notre besoin de sauvegarde, un NAS d’entrée de gamme à 2 baies fera largement l’affaire.
Mais à l’heure où de plus en plus de gens accèdent au net via la fibre optique, des solutions plus originales deviennent envisageables. Ainsi, on peut demander à un membre de notre famille ou à un ami disposant de la fibre optique d’héberger notre NAS. Vu les caractéristiques d’une telle machine et sa faible sollicitation, elle ne devrait pas couter plus de 10 €/an en électricité.
Se pose alors une question embarrassante : la personne à qui nous allons confier notre NAS est-elle digne de confiance ? Ne sera-t-elle pas tentée d’aller jeter un œil à nos données ? On évacue ce dilemme à la racine en optant pour un outil de sauvegarde qui chiffre les données à la source, c’est-à-dire avant même qu’elles ne soient envoyées au NAS.
Cette solution n’élimine pas tous les problèmes signalés précédemment avec les NAS, mais elle évite la colocalisation de votre PC et de votre sauvegarde.
De mon côté, disposant de la fibre optique, d’un serveur chez moi et d’un chez Tetaneutral, j’ai configuré une sauvegarde croisée des deux serveurs : le contenu de l’un est sauvegardé sur l’autre et réciproquement. Un pur bonheur ! Du coup, je vais sans doute ajouter un disque à ces serveurs pour accroitre leur espace de stockage. Je serai alors en mesure d’effectuer une sauvegarde de mes données essentielles sur ces deux serveurs.
Quel outil utiliser ?
Vous ne vous y attendez sans doute pas dans un article traitant de la sauvegarde, mais voilà bien le point sur lequel je vais avoir du mal à vous conseiller ! En effet, ma situation est des plus simples :
-
Je n’ai que des systèmes GNU/Linux à sauvegarder, pas de MS-Windows ou de MacOS. Tous les membres de la famille ont bien un smartphone Android, mais mes enfants tiennent à leur intimité. Ils perdront sans doute un jour ou l’autre leurs photos et leurs comptes sur les réseaux sociaux en même temps que leur téléphone, mais pas question que leur père fourre son nez dans leurs données. :) Du coup, je fais juste, une fois par an environ, une sauvegarde de leur répertoire d’adresses (ils ont été réceptifs lorsque je leur ai expliqué qu’ils auraient beaucoup de mal à le reconstituer s’ils le perdaient). Quant à moi, à part ce fameux répertoire d’adresses, je ne stocke par principe rien d’important sur mon smartphone.
-
Je suis un vieux geek ; un outil en ligne de commande me comble dans bien des cas et la sauvegarde en fait partie.
Du coup, je ne saurais vous conseiller un outil de sauvegarde multiplateforme, graphique et intuitif. Si vous avez fait l’effort de me lire jusque-là dans l’espoir d’obtenir cette information, je vous prie d’accepter mes plus plates excuses.
Mais si vous êtes dans la même situation que moi, je vous conseille sans hésiter BorgBackup, outil que j’utilise depuis trois ans et dont je suis pleinement satisfait. BorgBackup déduplique les données sauvegardées. Autrement dit, il fait virtuellement une sauvegarde complète à chaque fois qu’on le lance, mais il ne copie en réalité que les blocs de données qui ont changé depuis la dernière sauvegarde. Quant aux autres, BorgBackup enregistre juste le fait qu’ils sont toujours utilisés et n’ont pas été modifiés depuis la précédente sauvegarde. Quelle que soit la profondeur de l’historique, BorgBackup n’enregistre donc qu’une seule copie des blocs (i.e. tant que ceux-ci ne sont pas modifiés). Cette déduplication est globale ; si plusieurs blocs de votre disque dur sont identiques, BorgBackup n’en stockera qu’une seule copie. En outre, BorgBackup compresse les données sauvegardées. Ce faisant, il s’avère très économe en espace et cela se répercute sur le temps de sauvegarde, puisque moins de données sont transférées. La sauvegarde de mes systèmes est donc bien plus rapide qu’elle ne l’était auparavant.
BorgBackup a bien d’autres atouts, mais l’un des plus importants à mes yeux est qu’il chiffre les sauvegardes à la source. Cela me dispense d’avoir confiance en la cible, cela me dispense d’avoir à chiffrer mes disques externes (et je peux donc les utiliser ponctuellement pour un autre besoin). Que du bonheur ! Attention cependant à bien conserver au chaud la clé de chiffrement. Si vous vous contentez de la stocker sur le PC sauvegardé et si vous ne la connaissez pas par cœur, vous serez dans l’incapacité de déchiffrer votre sauvegarde si votre disque tombe en panne. Ce serait tragiquement cocasse, alors conservez des copies de cette clé à l’abri.
Un dernier mot à propos de la déduplication des données. Certains voient en elle une fragilité, car chaque bloc n’est stocké qu’une seule fois sur le support de sauvegarde. Mais en réalité, la multiplicité des copies sur un même support de stockage n’apporte qu’une sécurité marginale. Si le disque flanche, c’est tout son contenu qui devient irrécupérable, peu importe alors que nous ayons sur ce disque une seule ou cent copies du fichier. La différence entre les deux stratégies ne se fait que sur l’apparition de secteurs défectueux. Pour réellement sécuriser les sauvegardes, il faut donc multiplier les supports.
J’espère que ces quelques réflexions alimenteront la vôtre et vous convaincront de mettre en œuvre une politique de sauvegarde de vos données un tant soit peu efficace et robuste.