Inscrivez-vous gratuitement à la Newsletter BFM Business
La déduplication réduit drastiquement la consommation d'espace de stockage, et permet d'optimiser les procédures de protection des données. Premiers retours sur une technologie promise à la généralisation.
' Hors de la déduplication, point de salut ', affirme avec une pointe d'ironie Philippe Nicolas, directeur de la SNIA (Storage Networking Industry Association) Europe, en considérant à la
fois l'intérêt réel de cette technologie pour les utilisateurs et le ballet d'alliances et de rachats qu'elle provoque sur le marché. La déduplication, également connue sous le nom de factorisation, de réduction des données, ou encore de stockage
d'instance unique (SIS, pour Single Instance Storage), consiste à détecter des segments de données redondants par calcul d'empreintes et à ne stocker qu'une fois les données présentes en plusieurs exemplaires, en remplaçant les copies par des
pointeurs stockés dans un index.La détection peut s'effectuer à différents niveaux de finesse : fichiers, mais beaucoup plus souvent blocs de données de taille variable selon les fournisseurs (quelques kilo-octets pour les plus petits). D'une certaine façon, la
déduplication est une nouvelle extension des technologies de compression bien connues dans le monde informatique (comme les zip, bzip2, gzip), avec la capacité à fonctionner de façon beaucoup plus dynamique que les logiciels d'archive
traditionnels.
Associer la VTL à la réduction des données
Aujourd'hui, ces algorithmes de traitement sont lourds, ce qui interdit leur emploi en stockage primaire pour des raisons de performances. C'est dans le domaine de la sauvegarde que la déduplication s'impose.
' Pour nous, librairie de bandes virtuelles et réduction de données sont totalement associées. Les deux ont été mises en ?"uvre et fonctionnent en même temps, nous ne les distinguons pas ', témoigne
Eric Ras, responsable du bureau de la production informatique à la Mairie de Paris, qui a mis en place une solution basée sur le logiciel Protectier de Diligent. Pour d'autres, la déduplication est venue après une première expérience de sauvegarde
sur disques. Les motivations se ressemblent beaucoup : faire face à une augmentation du volume de données à protéger, souvent de 30 % par an, en particulier pour les messages électroniques. Sauvegarder plus signifie soit saturer sa
robotique de bandes, soit devoir rajouter des baies de disques, opération coûteuse. La déduplication permet d'augmenter les capacités d'accueil d'une baie sans y rajouter de disques.Timecruiser, un fournisseur nord-américain de portails de services pour l'enseignement, effectuait auparavant ses sauvegardes sur des volumes Raid 6, un mode de redondance capable de survivre à la perte simultanée de deux disques
d'une même grappe. ' La déduplication nous évite d'acheter plusieurs baies à 15 000 dollars pièce ', justifie James Wang, directeur technique et cofondateur de la société américaine. Assertion
identique à la Mairie de Paris : ' Sans déduplication, la sauvegarde sur disques nous aurait obligés à multiplier les baies. ' Pourtant, si cette technologie est source d'économies, elle soulève un
problème : on connaît d'avance la capacité d'un disque dur, mais pas le taux de réduction que permet d'atteindre la déduplication. ' Ce taux dépend de la nature des données et de la politique de sauvegarde. En effectuant
des sauvegardes complètes du même serveur 365 jours par an, on peut atteindre des taux faramineux ', explique Didier Bouvet, directeur du centre d'expertise de l'intégrateur APX Synstar, spécialiste du stockage. Pour des
documents bureautiques, le taux de réduction initial sera important. Il sera moindre avec une base de données dont le niveau de redondance est inférieur. Ensuite, la progression dans le temps dépend du niveau de modification des données au
quotidien. ' Avec un logiciel de sauvegarde classique en mode différentiel ou incrémentiel, on sauvegarde comme nouveaux beaucoup de fichiers qui ne sont que modifiés. C'est bien là, pour ces sauvegardes récurrentes, que la
déduplication a tout son sens, avec des taux de 1 pour 10 à peu près assurés, et pouvant atteindre 1 pour 30, ou même 1 pour 50 ', commente Bertrand Letemplier, expert technique chez Rise, autre intégrateur spécialisé.
' Nous prenons un engagement minimum de réduction de 1 pour 8, alors qu'une compression matérielle sur bande n'assure qu'un taux de 1 pour 2, explique Michel Alliel, directeur technique d'HDS France, mais
nous attendons plutôt des taux de 1 pour 15, voire plus. 'En tout cas, le processus s'avère évolutif. Timecruiser obtenait les premiers mois des taux de réduction de 1 pour 4, avec un équipement SIR (Single Instance Repository) de Falconstor. ' Au bout de neuf mois
d'utilisation, nous atteignons 1 pour 20, en associant la déduplication et les fonctions de compression traditionnelles ', constate James Wang, qui table à terme sur des taux de 1 pour 30, voire 1 pour 40. Au CIG (Centre
interdépartemental de gestion) Petite Couronne, qui a mis en place des équipements de déduplication Quantum, ' le taux de réduction tend à se stabiliser à 1 pour 12, après avoir augmenté régulièrement. Atteindre 1 pour 10
était déjà pour nous un bénéfice considérable ', témoigne Eric Auvray, le chef du service exploitation et support technique. La Mairie de Paris, elle, annonce des taux d'environ 1 pour 18.
Des données plus faciles à restaurer
Autre bénéfice secondaire fortement apprécié : l'association d'une librairie de bandes virtuelles (VTL) et de la déduplication permet de limiter le recours aux bandes, voir de s'en affranchir complètement. Il s'agissait déjà d'un
des arguments clés de la sauvegarde sur disques. La déduplication, en augmentant les capacités de stockage des VTL, assure une augmentation des temps de conservation des données en ligne. ' Nous sommes passés de quinze jours à
presque deux mois, constate Eric Auvray. C'est lors des restaurations que le gain de temps est le plus significatif. Grâce à l'association de la VTL et de la déduplication, plus besoin de remonter des bandes, ni d'aller
physiquement les chercher lorsqu'elles ont quitté le site ', renchérit Eric Ras. Timecruiser, comme toutes les entreprises nord-américaines, a vu se multiplier les contraintes réglementaires ces dernières années. Par exemple,
les données concernant la scolarité des étudiants doivent rester accessibles pendant sept ans, période durant laquelle les autorités peuvent exiger la remontée rapide de certains éléments. Aussi l'entreprise a-t-elle choisi de ne pas recourir du
tout aux bandes, et de préserver toutes ses données sur disques. Selon Philippe Nicolas, ' il s'agit de la seule technologie capable de faire mieux que la bande, y compris en termes de prix. Les comparaisons établies jusqu'ici
entre sauvegarde sur disques et bandes n'étaient pas très honnêtes, mais dans une configuration incluant VTL et déduplication, on commence à voir des coûts réellement comparables '.L'une des grandes vertus de la bande reste sa capacité à être déplacée pour externaliser les données. Là encore, la déduplication redistribue les cartes. ' Aujourd'hui, les entreprises recourent à la
déduplication pour la sauvegarde, mais nous leur recommandons de ne pas regarder les choses par le petit bout de la lorgnette - l'optimisation de l'espace disque -, mais plutôt de penser à des plans de secours sans manipulation de supports
physiques. La déduplication fait partie des outils qui permettent d'y parvenir ', explique Bertrand Letemplier. En effet, pour éloigner les sauvegardes du site principal sans manipuler de bandes, des données de taille réduite
transitent plus facilement d'un point à un autre, par des liens réseaux. Le CIG Petite Couronne en témoigne : si le déploiement d'une solution de VTL avec déduplication visait d'abord à faire face à l'augmentation du volume des données, il a
vite intégré une composante plan de secours. Il a permis d'installer un système de réplication dans une autre partie du bâtiment de façon à se prémunir contre la perte de la salle informatique. Timecruiser étudie de son côté les possibilités de
mettre en place un plan de reprise sur sinistre plus complet en créant une copie secondaire des données dédupliquées.
La déduplication ne règle pas tout
La déduplication serait-elle le remède à tous les maux de la sauvegarde ? ' Non, ce n'est qu'un ajout technologique à la panoplie existante, considère Bernard Letemplier. Nous allons vite retomber sur un
problème classique : d'abord, la déduplication augmente virtuellement l'espace disponible pour la sauvegarde, donc nous allons essayer de stocker plus, au risque de saturer le réseau. Ensuite, les petits fichiers sont lents à sauvegarder.
Dédupliquer n'y change rien. ' Et la façon dont elle se pratique le plus souvent aujourd'hui, au niveau d'une VTL, ne contribue pas non plus à réduire significativement les fenêtres de sauvegarde. ' Le
gain n'est pas énorme par rapport à ce que nous obtenions avec une robotique de bandes, si ce n'est la disparition du temps de montage des bandes et des débits plus soutenus. Nous avons gagné de 15 à 20 % sur nos
fenêtres ', témoigne Eric Ras.Au-delà des problèmes de facteur de réduction, les questions d'implémentation restent en suspens. Un débat oppose les tenants de la déduplication en ligne, qui s'effectue en plaçant le moteur de traitement directement sur le chemin du
flux de données, et ceux de la déduplication post-traitement, qui consiste à stocker les données sur un disque, et à lancer ensuite les opérations de déduplication en tâche de fond. La première solution risque de ralentir les opérations de
sauvegarde, la seconde demande plus de disques pour stocker temporairement les données. ' Aujourd'hui, il n'y a pas d'offre unique ou de fonctionnement uniforme. Mais les besoins des entreprises en matière de sauvegarde ne
sont pas non plus les mêmes ', conclut Didier Bouvet d'APX-Synstar.
Votre opinion