Accessibilité, sécurité et durée grâce à l’archive-tiering

AdobeStock_208531121

De nombreuses organisations se laissent surprendre par l’impact du Big Data sur leur activité, à l’origine de l’augmentation exponentielle du volume de données qu’elles produisent.

L’un des aspects les moins anticipés – mais aussi des plus douloureux – de ce phénomène, est l’envol des coûts de stockage liés à l’archivage des données.

Heureusement, des solutions de contrôle des coûts émergent sur le marché. Le principe du tiering de données consiste à adapter la classe de stockage au cycle de vie des données. Le tiering de données permet déjà de réaliser des économiques sur le stockage primaire, et peut être appliqué au stockage des archives.

Grâce à l’archive-tiering et à une classification optimisée de leurs données archivées selon leurs usages réels, les organisations parviennent à réduire drastiquement les coûts de stockage de leurs archives.

***

Mettre les coûts de l’archivage de données sous contrôle grâce à une stratégie d’archive-tiering optimisée

Le premier objectif de l’archive-tiering est d’économiser une partie des coûts de stockage d’archive ; mais son efficacité dépend de plusieurs autres facteurs.

Tiering, ou archive-tiering ?

Les solutions de tiering classique cherchent d’abord à rationaliser le coût d’exploitation du stockage primaire – lequel est lié au stockage du backup, qui augmente à chaque sauvegarde totale.

Le tiering est parti d’un constat simple : 80 % des données sauvegardées sur le stockage primaire ne seront que peu, voire plus jamais utilisées au-delà de 90 jours après leur sauvegarde. Il semble dès lors logique de chercher à réduire leurs coûts de stockage – sans pour autant compromettre leur sécurité.

L’archive-tiering vise le même objectif d’optimisation des coûts de stockage en fonction de l’âge de la donnée, de son importance stratégique, de la durée de stockage visée, et du ratio de réutilisation des données archivées.

On note que l’enjeu technique est plus complexe que pour le tiering dans la mesure où, contrairement à une sauvegarde qui se contente de les copier, l’archivage gère les dernières copies d’une donnée qui n’existe plus sur le stockage primaire et doit les transférer d’une plateforme de stockage à une autre tout en garantissant leur pérennité.

L’archive-tiering au service des organisations

De plus en plus d’organisations ont besoin d’une solution d’archive-tiering – et celles qui ont d’importants besoins d’archives de longue durée arrivent en tête.

Le CNRS, par exemple, s’inquiète de ses besoins croissants d’archivage de long terme. Mais il ne s’agit pas seulement d’un stockage inerte : même les centres de recherche qui archivent de très grands volumes de données sur la longue durée doivent rendre possible leur accessibilité pour effectuer de nouvelles analyses.

***

Construire une stratégie d’archive-tiering efficace et économique

L’efficacité de l’archive-tiering dépend ainsi en premier lieu des économies réalisées, mais aussi de l’accessibilité des données. Afin de maximiser leur usage de ces deux facteurs, les organisations doivent adapter leur plan d’archive-tiering à la durée de l’archivage qu’elles recherchent.

Archivage de court terme : les avantages de l’archive nearline

L’archive-tiering nearline concerne les données « chaudes » (hot), qui sont toujours susceptibles d’être mobilisées par les opérations dans le court terme.

Cette solution intéressera particulièrement les organisations qui manipulent des volumes de données qui excèdent les capacités de sauvegarde.

Les sociétés de production audio-visuelle, par exemple, ne peuvent tout simplement plus garder en ligne l’ensemble des données dont elles ont besoin pendant toute la durée de la production d’un film ou d’une série vidéo. Elles adaptent leur chaîne de traitement en conséquence : après chaque étape (colorisation, effets spéciaux, dub, titrage…), la donnée est archivée dans une archive "active" sur disque partagée entre les différents métiers. On parle d’un archivage de proximité, ou nearline.

Certaines données y restent jusqu’à un an, au cours duquel elles sont réutilisées pour produire des contenus dérivés tels que des bandes annonces TV ou des résumés de la saison précédente. Ce n’est qu’une fois que ce besoin de réutilisation se raréfie, que les données basculent vers un mode d’archivage-tiering moins coûteux.

Archivage intermédiaire : les avantages de l’archive en air-gap sur bande ou sur cloud

En restant dans la production audiovisuelle, lorsque les volumes sont très importants et que les traitements ne s’enchaînement pas aussi rapidement, il est aussi courant d’utiliser des librairies de bandes multi-lecteur pour cet archivage nearline. C’est le cas chez Le Labo, par exemple. L’archivage est alors complètement intégré au workflow de traitement et déplace rapidement les gros volumes des productions en 4K de disque à bande et réciproquement.

En entreprise il est aussi fréquent d’avoir affaire à des données ni tout à fait chaudes, ni tout à fait froides. Ces données « tièdes » ne bénéficient pas du même degré de priorité stratégiques que celles qui sont qualifiées pour un archivage nearline. Il est dès lors préférable de les stocker sur bande, un support qui permet un air-gap sécurisé à moindre coût. Les bandes ne sont plus stockées en ligne : elles sont simplement externalisées vers un site tiers.

Archivage de moyen-terme : les avantages de l’archive-tiering vers Amazon Glacier ou Google Cloud Archive

Très grand volumes de données dont le coût de la protection en multicopie en interne serait prohibitif, transition opérationnelle, données liées à une réglementation de court terme… Ces données « froides », dont on souhaite qu’elles restent accessibles sur le moyen-terme mais dont on sait à l’avance qu’elles ne seront très probablement pas restaurées, sont qualifiées pour un stockage sur des services tels qu’Amazon Glacier, Google Cloud Archive ou même Wasabi.

Le choix entre l’un ou l’autre des services de stockage se fait généralement sur une comparaison des politiques de prix. Une solution de Data Management, telle que Miria for Archiving par Atempo, permet de simplifier le processus d’archivage et de garder pleinement le contrôle de la donnée. C’est Miria qui contrôle le stockage cloud et le tiering dans l’archive. Ainsi, si pour réaliser des économies supplémentaires sur le stockage de vos archivages, vous décidez de souscrire à un nouvel opérateur Cloud, vous pouvez simplement migrer une partie du contenu de vos archives directement depuis l’interface de Miria. La solution déplacera ensuite automatiquement les multiples copies des données archivées, entres ces cloud storages.

Si Miria for Archiving simplifie également la procédure de restauration (manuelle depuis l’interface ou via APIs), en revanche, malgré les récentes baisse de tarifs, la restauration des archives Glacier peut rester onéreuse.

Archivage de long-terme : les avantages de l’archive-tiering en deep glacier

Enfin, pour les données liées au patrimoine de l’entreprise, ou encore les données de collecte unique (mesures sismiques, données cosmologiques…) qui doivent faire l’objet d’un archivage de très long terme, Amazon Glacier Deep Archive reste le prestataire de référence. Les données perdent en accessibilité, mais gagnent en sécurité pour un coût de stockage qui continue de décroître.

***

14-carré L’archive-tiering met les coûts et la protection des données archivées sous contrôle, tout en assurant l’accessibilité des données dans le temps, ainsi que leur intégrité tout au long du cycle d’archivage. Il impose un travail de classification des données à archiver, qui renforce par ailleurs la cyber-résilience des organisations.

Grâce à la segmentation évolutive des coûts liés à l’archivage, l’archive-tiering accompagne avec précision et pragmatisme la transformation digitale des organisations, et l’intégration du Big Data à leurs activités.

***

A lire aussi :