Inscrivez-vous gratuitement à la Newsletter BFM Business
Déjà présente dans le stockage secondaire, la déduplication s'invite dans le stockage primaire. Sans oublier son rôle important dans l'optimisation des transferts de fichiers sur le WAN.
Entrée progressivement dans le monde du stockage depuis le début du millénaire, la déduplication y a rapidement fait figure de technologie miracle pour réguler l'explosion des volumes de données. Dans les domaines de la
sauvegarde et de l'archivage, elle s'est vite imposée sous le nom de Single Instance Storage, pour la remarquable économie d'espace, donc de disques, de bandes et de médias optiques, qu'elle procure. ' La déduplication
commence à être présente dans tous les centres de données. Elle a permis d'éliminer les bandes ', rappelle Jean-Yves Oriot, architecte chez New'Arch. Mais elle contribue aussi aux services d'optimisation d'accès aux NAS sur
réseau étendu assurés par les boîtiers WAFS. La déduplication, aussi appelée factorisation, repose sur un principe simple : les données sont découpées en une multitude de tronçons, auxquels est associé un identifiant unique issu généralement
d'un calcul d'empreinte. La comparaison de ces identifiants aide à ne stocker qu'une fois un même tronçon, vers lequel on crée ensuite des pointeurs. Plus ces tronçons sont petits, plus l'économie d'espace de stockage est importante, mais plus il
faut de puissance de traitement. En pratique, le stockage de fichiers dédupliqués requiert jusqu'à 50 fois moins d'espace que sans cette opération. ' Aujourd'hui, la dé duplication est mature, on atteint des taux élevés de
réduction des volumes de données. Mais une déduplication efficace dépend beaucoup de la qualité et de la nature des fichiers d'origine ', déclare Roberto Gessa, ingénieur stockage et responsable de l'infrastructure chez
RBS.
Complément naturel des bandes virtuelles
La déduplication s'utilise avec profit en conjonction avec les bibliothèques de bandes virtuelles VTL (Virtual Tape Library). Celles-ci, qui réduisent les fenêtres de sauvegarde en substituant des disques aux robotiques de
bandes, ont l'avantage d'être non intrusives dans l'infrastructure de stockage. Elles optimisent les sauvegardes sans changer de logiciel, ni modifier les processus. La déduplication embarquée dans une VTL reste donc également transparente.
' Idéalement, cette déduplication doit se produire après écriture des données sur la VTL. Si elle a lieu en même temps que la sauvegarde, elle risque de réduire les performances de la VTL, et tous les bénéfices sont
perdus ', souligne Alexandre Delcayre, directeur technique de Falconstor. Une approche que Jean-Yves Oriot apprécie également : ' La combinaison des deux évite les engorgements et ne fait pas
acheter trop de disques. 'Forte de ses succès et des bénéfices qu'elle apporte, la déduplication s'étend désormais à la sauvegarde primaire. Le FAS 2000, de Netapp, est l'une des premières baies de stockage primaire, et la première d'un constructeur
majeur, à embarquer une technologie de déduplication baptisée A-SIS. ' Même si le principe est le même que pour la sauvegarde secondaire, il s'agit là d'un algorithme tout à fait différent ', lance
Bruno Picard, directeur technique de Netapp. Ici, la déduplication opère directement dans le microcode de l'équipement. Les données sont donc en quelque sorte dédupliquées à la volée, et le constructeur entend par là tout type de données :
fichiers, mais aussi volumes auxquels des serveurs accèdent en mode bloc (par exemple, des images de systèmes d'exploitation pour démarrer des serveurs en réseau, images qui comportent une très forte partie de données communes). La déduplication n'a
donc pas fini d'investir les infrastructures. ' En outre, avant, les bandes passantes étaient plus faibles et les disques plus chers. Les entreprises avaient donc plus besoin de déduplication
qu'aujourdhui ', conclut ironiquement Philippe Nicolas, Chairman de la SNIA.
Votre opinion