Le Vademecum du Stockage en 2020-2021 (2/4)
Je suis heureux de vous retrouver pour la deuxième partie de mon Vademecum du Stockage en 2020-2012.
Et zou, c’est reparti …
Sans oublier le PodCast « Unleash your storage passion » http://www.podcast.unleash-your-storage-passion.fr/
Software Defined Storage (SDS)
Après cette immersion dans la technologie, il est temps de reprendre de la hauteur et d’évoquer le Software Defined Storage (SDS).
Comme tous les composants de l’infrastructure, le stockage a lui aussi cédé à la démarche « Software Defined ». En fait, il s’agissait notamment de (re)mettre en lumière l’intelligence du stockage qui a toujours été en très grande partie dans le logiciel, pudiquement appelé pendant des années « microcode ».
Bien évidemment, le matériel contribue grandement au stockage comme nous l’avons vu avec le stockage Flash ou SCM, mais les fonctionnalités comme les clichés, les clones, la déduplication, la compression, la réplication, … sont avant tout une affaire de code !
Mais le SDS, c’est plus que cela. C’est aussi la volonté de banaliser le matériel sous-jacent et d’éviter l’utilisation de composants spécifiques (souvent appelés ASIC). Autrement dit SDS rime souvent avec serveur x86, protocole TCP-IP et disques SSD du marché.
Et cela reste une tendance d’actualité, comme le montre l’évolution récente de la gamme DellEMC ISILON vers PowerScale avec le remplacement des nœuds historiques spécifiques par des serveurs Dell ou l’abandon des cartes spécifiques de gestion de la réduction des données par HPE sur Simplivity au profil d’une solution 100% logicielle !
Le SDS portait cette promesse de mettre à disposition un stockage simple (x86 & IP), économique (« commodités »), évolutif (« Scale-Out ») et universel (fichier / bloc / objet). Très lourde tâche !
Je souhaite ici m’attarder principalement sur le côté universel. L’omniprésence du logiciel devait permettre de tout faire (il suffit simplement de développer !) afin de répondre aux besoins du client avec tout type de stockage : bloc, fichier, objet. Et ce au moindre coût vis-à-vis des baies de stockage
Force est de constater après plusieurs années que nous sommes loin d'avoir atteint ce Graal. Certes il existe des solutions SDS avec une approche stockage universel comme CEPH chez SuSe ou RedHat mais l’adoption reste limitée. Et à ce propos, la décision de RedHat de positionner CEPH comme le stockage d’OpenShift n’a pas été franchement accueilli comme une excellente nouvelle !
En revanche, l’architecture SDS, c-a-d des serveurs avec du stockage local, connectés en général via IP est devenue une référence pour de nombreux usages ciblés : hyperconvergence, NAS scale-out, stockage objet, stockage secondaire, …
En synthèse, oui le SDS est partout aujourd’hui, non il n’est pas devenu le fameux stockage universel dont tout le monde rêve.
Justement il est temps de se pencher sur ces différentes déclinaisons …
Hyperconvergence
Vous devez vous dire, "le pauvre vieux, il ne va pas bien dans sa tête !", il veut nous parler de l’hyperconvergence, dans un article sur le stockage ?!? Oui, je l’avoue, cela peut paraître étonnant.
En fait, loin de moi l’idée de revenir sur l’histoire, les solutions, les fondamentaux de l’hyperconvergence.
Quoi que …
Je souhaite simplement attirer votre attention sur l’évolution des infrastructures hyperconvergées avec ce que l’on appelle communément sur le marché HCI 2.0.
Les solutions hyperconvergentes se répandent de plus en plus, pour des applications critiques en production, portées par des acteurs majeurs comme VMware et Nutanix, et aussi Cisco ou HPE (voir mon article sur le dernier Forrester Wace HCI 2020).
En revanche, le retour d’expérience des clients montre que leur cas d’usage reste souvent ciblé sur des besoins spécifiques, comme le VDI, le Big Data ou un périmètre Métier précis. Autrement dit l’approche par silo prédomine encore.
En effet, il s’avère compliqué de gérer sur la même plate-forme la diversité des besoins en processeur, mémoire, stockage pour des applications différentes, et une évolutivité importante.
Malgré les progrès réalisés par les solutions, l’universalité de la plate-forme hyperconvergente à grande échelle reste à démontrer, notamment sur le long terme (ex : croissance de la volumétrie, besoins ponctuels de puissance de traitement, …). Seules les plates-formes déployées pour des clients modestes avec moins de 5 nœuds peuvent réellement prétendre à ce statut.
Face à cet obstacle, l’approche HCI 2.0, initialement portée par des acteurs comme Axelio ou Datrium, est en rupture avec le marché de l’hyperconvergence dans le sens où les couches « Compute » et « Storage » sont « de facto » dissociées, afin de pouvoir faire évoluer les ressources de façon totalement indépendantes, afin répondre aux différents besoins.
C’est très différent VMware VSAN, Nutanix ou Simplivity, où la flexibilité passe par des nœuds avec des configurations différentes, voire dédiés au stockage le cas échéant.
Le point important est que cette approche a été adoptée il y a 2 ans environ par NetApp avec son infrastructure dite « désagrégée » sur la base de …. SolidFire OS, acteur historique du stockage Flash ! La boucle est bouclée.
Certes la solution NetApp HCI s’adresse à des configurations déjà importantes avec 4 nœuds au minimum, mais elles disposent d’un ADN intéressant pour une approche universelle, avec la garantie des performances quel que soit le profil de l’application, sur une plate-forme unique.
Allons plus loin.
HCI 2.0 est finalement une étape vers les infrastructures dites « composables » où tous les composants (processeur/mémoire, stockage, réseau) sont mis à disposition pour bâtir le « module » adapté aux besoins du Métier, avec les ressources adéquates, notamment le stockage.
Initialement lancée par Ericsson, ce nouveau type d’infrastructure est aujourd’hui principalement porté par HPE avec Synergy, et des acteurs moins connus comme Liqid ou DriveScale. A suivre …
Stockage Objet
Voilà un thème qui me passionne depuis des années. J’avais la certitude qu’il allait décoller telle une fusée, et devenir le complément unique et universel (encore une fois, un rêve …) du stockage des applications critiques de production.
Et bien non, le stockage Objet n’a pas explosé et aujourd’hui il est très souvent spontanément associé avec S3, aussi bien le protocole que le stockage Object proposé par AWS ! C’est bien mais cela pourrait être tellement plus.
Tout d’abord, le stockage Objet n’est pas voué à un être un simple stockage complémentaire (voire secondaire …). Pour des entreprises, notamment dans le domaine du Media, de la surveillance ou des activités pétrochimiques, il est adapté et pertinent pour supporter les applications « cœur de Métier ».
En effet, la structure même du stockage Objet c-a-d un référentiel plat (Namespace) avec des millions, voire des milliards de « sacs d’octets » plus ou moins grands (de quelques Ko à plusieurs centaines de Go !), avec leurs métadonnées enrichies et un simple identifiant, répond bien mieux aux besoins de ces clients que le système de fichiers classiques ou « même Scale-Out »
Les difficultés rencontrées par les pionniers dans le domaine ont été multiples.
Tout d’abord l’objet le plus répandu chez les clients est le simple fichier, stocké en général sur un NAS. Et le mode d’accès privilégié pour ce fichier sont les protocoles NFS et SMB. Donc tout stockage objet doit avoir une passerelle embarquée simple et efficace pour ces protocoles. Seules les nouvelles applications pouvaient être nativement développées en RestAPI pour un usage direct en mode Objet. Mais cela a fortement restreint les cas d’usage.
Ensuite, beaucoup de solutions étaient « commercialement » viables pour des volumétries de plusieurs centaines de To, voire de l’ordre du Po. Une nouvelle fois, cela concernait qu’un nombre très réduit de clients.
Finalement, la démarche la plus usuelle était de faire adopter le stockage Objet pour la sauvegarde et ensuite de voir comment le réutiliser pour des besoins plus « nobles ».
A ce petit jeu, le stockage Objet a été adopté finalement très lentement par les clients, et pendant ce temps, les solutions basées sur des systèmes de fichiers « Scale-Out » ont proposé de plus en plus souvent une interface S3 afin de capter les nouvelles applications pensées autour de l’Objet tout en étant pertinentes pour les usages classiques avec les fichiers.
Et aujourd’hui les 2 marchés du stockage Objet et du NAS « Scale-Out » (ex : Qumulo) se mélangent, comme le montre par exemple le Magic Quadrant du Gartner « Distributed File Systems and Object Storage » !
Les grands acteurs du stockage ont donc eu le temps de réagir avec des solutions simplement rachetées (ex : IBM COS) ou développées (ex : Dell/EMC ECS, NetApp StorageGrid, PureStorage FlashBlade) souvent sur la base d’une technologie « absorbée » d’une startup.
Et les fournisseurs de Cloud public se sont eux aussi engouffrés dans la brèche afin de proposer un stockage capacitif (plus ou moins) économique, facile d’accès et souple. Sans compter les nouveaux acteurs comme Rubrik ou Cohesity qui proposent des alternatives intéressantes pour l‘évolution de la sauvegarde.
Par conséquent, les « pure players » visibles en France ne sont plus très nombreux, comme Scality et Cloudian, et certains « disparaissent » encore comme OpenIO avec le rachat récent par OVHcloud.
Finalement, à titre personnel, je pense que le rdv prometteur a été en grande partie manqué même si la solution technique est et reste pertinente. Dommage.
Stockage secondaire
Ultime déclinaison du SDS (pour cet article, je précise), avec ou sans d’appliances matérielles, le fameux stockage secondaire.
Tout d’abord, qu’est-ce que le stockage secondaire ? ce n’est pas une technologie particulière. Le stockage secondaire peut être bloc, fichier ou objet. En fait il se définit surtout en regard du stockage primaire. Cela peut paraître évident mais il est bon de le rappeler.
Si le stockage primaire correspond aux données nécessaires pour les applications critiques au fonctionnement même de l’entreprise, le stockage secondaire englobe donc tout le reste, que le périmètre soit technique (ex : sauvegarde) soit fonctionnel (ex : archivage).
Cela ne veut surtout pas dire qu’il n’est pas important. La sauvegarde est incontournable comme l’archivage mais l’entreprise peut fonctionner sans pendant « un certain temps ». En revanche lorsque le système de facturation est en panne, l’horloge de l’argent s’écoule inexorablement …
Bien évidemment, tout ceci doit être nuancé en fonction des entreprises mais les fondamentaux sont bien là.
Le stockage secondaire vise donc à proposer une alternative pour héberger des données a priori moins critiques à moindre coût que le stockage primaire performant, hautement disponible et résilient.
Les premiers acteurs comme Actifio ou Delphix, sont entrés sur ce marché principalement pour optimiser la gestion des nombreuses copies d’une même base de données (jusqu’à 10 chez certains clients !) pour les besoins de développement, d’intégration, de pré-production, d’archivage, …
Ensuite, d’autres pour fournisseurs comme Rubrik ou Cohesity ont proposé une approche très en rupture avec une plate-forme … universelle (encore une fois ! c’est bien l’idée fixe du monde du stockage …) pour gérer la sauvegarde, l’archivage, les copies de bases de données, les fichiers « tièdes », les données analytiques, …
L’offre techniquement séduisante était malheureusement illisible car trop transverse chez les clients avec trop d’équipes impactées.
Heureusement ces nouveaux entrants ont bien compris la leçon, et ils se sont focalisés principalement sur 2 sujets où les optimisations étaient importantes et relativement simples : la sauvegarde et le NAS.
Et voilà pourquoi aujourd’hui Rubrik et Cohesity se sont invités dans le peloton de tête des classements pour les solutions de sauvegarde aux côtés des acteurs historiques comme Veritas, Dell/EMC ou IBM. Et même les solutions plus récentes comme CommVault ou Veeam ont dû réagir, soit avec le rachat d’une technologie adaptée (Hedvig par CommVault), soit par des partenariats (Veeam avec Nutanix Mine).
Magic Quadrant for Data Center Backup and Recovery Solutions, July 2020
L’autre cheval de bataille est le serveur de fichiers classique (le bon vieux NAS), surtout en environnement ROBO (agences, usines, …). Quoi de plus simple que de le coupler à l’environnement de sauvegarde au sein d’une plate-forme unique, répliquée automatiquement sur le site principal dans le Datacenter.
Cohesity est une solution particulièrement intéressante sur ce sujet.
A ce titre, la simplicité est un point majeur dans le succès des solutions dites de stockage secondaire. Autant un client est prêt à accepter une certaine complexité pour le stockage primaire car enjeux et les conséquences pour l’entreprise peuvent le justifier (maintenant s’il peut faire simple, il le fera !), autant pour des données considérées comme secondaires c’est hors de question.
Ceci marque la fin de la partie 2. A très bientôt pour la suite !
Frédéric Chomette