La fiabilité du cloud nécessite de repenser les dépendances

Les entreprises surestiment la fiabilité de leurs fournisseurs de cloud et doivent repenser leur stratégie cloud, selon Sam Barker, vice-président des études de marché sur les télécommunications chez Juniper Research.

Il a soutenu dans un blog d’entreprise que les entreprises dépendent trop d’un seul fournisseur pour leurs services cloud, bien que cela puisse changer à la suite de la panne d’Amazon Web Services (AWS) le mois dernier qui a perturbé un service de base de données clé et conduit de nombreux services qui dépendent d’AWS à subir également des pannes, notamment Disney+, Fortnite, HBO Max, Robinhood, Roblox, Slack, Venmo et Zoom.

« Malgré les perturbations, les actions d’Amazon sont restées relativement stables, ce qui suggère la confiance continue des investisseurs dans le leadership à long terme de l’entreprise sur le marché », a écrit Barker. « Cependant, l’incident pourrait accélérer la demande d’outils d’orchestration multicloud, d’informatique de pointe et de services qui augmentent la résilience globale des services cloud. »

« Dans l’ensemble, nous nous attendons à ce que la panne incite les entreprises à explorer de nouvelles solutions ou de nouveaux modèles commerciaux pour augmenter la disponibilité de leurs services », a-t-il ajouté.

Alors que les récentes pannes chez AWS et Microsoft Azure ont entraîné une dégradation des performances et des temps d’arrêt pour de nombreuses organisations, a noté Lydia Leong, vice-présidente et analyste de Gartner, « ces événements mettent en évidence une vérité importante : des perturbations du cloud se produisent, mais elles ne constituent pas une preuve que le cloud est intrinsèquement peu fiable ».

Dans un article publié sur le site Web de Gartner, elle prévient que le déplacement des charges de travail hors des fournisseurs hyperscale (rapatriement) ou vers des cloud souverains plus petits (géopatriation) n’éliminera pas le risque de panne. « En fait, écrit-elle, ces mesures introduisent souvent de nouveaux risques et peuvent même ralentir votre rétablissement lorsque les choses tournent mal. »

« Il est tentant de penser que le multicloud est la solution », poursuit-elle. « Mais les recherches de Gartner montrent que la résilience multicloud peut coûter plus cher que ce qu’elle permet d’économiser, introduisant une complexité technique sans véritablement éliminer le risque systémique. »

« Les pannes de cloud font la une des journaux car elles affectent un grand nombre de personnes à la fois, mais le contexte compte », a-t-elle ajouté. « Tous les grands fournisseurs ont connu des événements similaires, de Microsoft Azure à Google Cloud Platform. Le véritable différenciateur réside dans la capacité de votre organisation à planifier et à se remettre des perturbations inévitables. »

Impossible d’éliminer les risques par l’ingénierie

Les dernières années ont montré à quel point le monde numérique peut être fragile, a observé Shawn Michels, vice-président de la gestion des produits chez Akamai Technologies, un fournisseur de services de réseau de diffusion de contenu basé à Cambridge, dans le Massachusetts. « Des pannes de plateforme cloud aux coupures de câbles sous-marins, même les systèmes les plus sophistiqués peuvent connaître des pannes », a-t-il déclaré à TechNewsWorld.

« De nombreuses organisations supposent encore que le fait que quelque chose s’exécute dans le cloud est automatiquement résilient, mais ce n’est pas le cas », a-t-il déclaré. « Même les plus gros nuages n’ont pas une disponibilité parfaite. »

« Ce qui distingue le meilleur du reste, c’est la façon dont un système réagit aux petites pannes pour éviter une panne plus importante », a-t-il poursuivi. « Vous ne pouvez pas empêcher chaque composant de tomber en panne, mais vous pouvez concevoir des systèmes pour qu’ils se rétablissent si rapidement que les clients le remarquent à peine. »

Il a ajouté que les pannes nous rappellent qu’on ne peut pas éliminer tous les risques. « Les organisations les plus résilientes repensent leurs architectures en utilisant des déploiements progressifs, des capacités de restauration automatisées et une observabilité continue pour garantir que les problèmes sont détectés et contenus rapidement », a-t-il expliqué. « La véritable résilience est autant une question de culture qu’une question d’architecture technique. C’est la façon dont les gens se préparent à l’échec, réagissent au stress et apprennent de chaque incident. »

Même si les principaux fournisseurs hyperscale sont extrêmement fiables, ils ne le sont pas tout autant, affirme Rich Mogull, analyste en chef de la Cloud Security Alliance, une organisation à but non lucratif dédiée aux meilleures pratiques du cloud. « Les entreprises ont tendance à passer sous silence ces différences », a-t-il déclaré.

« Par exemple », a-t-il poursuivi, « AWS connaît rarement des pannes inter-régionales, et lorsqu’elles surviennent, elles ont tendance à être limitées. Vous pouvez largement planifier en fonction de ce potentiel. Azure, en comparaison, est plus susceptible de connaître des pannes mondiales en raison de la façon dont son infrastructure est conçue. »

Aucune immunité contre les temps d’arrêt

Les entreprises surestiment absolument la fiabilité du cloud, supposant souvent que l’infrastructure cloud mondiale est intrinsèquement immunisée contre les temps d’arrêt dus à la redondance, a affirmé Ensar Seker, RSSI de SOCRadar, une société de renseignement sur les menaces, à Newark, Del.

« En réalité, la redondance atténue les risques, mais elle ne les élimine pas », a-t-il déclaré à TechNewsWorld. « Même les hyperscalers comme AWS ou Azure fonctionnent dans un réseau complexe de dépendances entre régions, zones et services tiers. Un problème dans une couche – comme la fédération d’identité, la propagation DNS ou le routage de l’équilibreur de charge – peut toujours se répercuter et interrompre des fonctionnalités critiques, même si les nœuds de calcul principaux sont opérationnels. «

« Ce qu’il est essentiel que les entreprises internalisent, c’est que les pannes de cloud soient inévitables et non hypothétiques », a-t-il déclaré. « La question n’est pas de savoir si, mais à quelle fréquence et dans quelle mesure votre organisation est préparée. »

« La panne d’AWS en juin 2023, par exemple, a tout perturbé, des portails bancaires aux systèmes hospitaliers, non pas parce qu’AWS manquait de redondance, mais parce que les entreprises n’avaient pas conçu leurs applications pour résister à une dégradation régionale ou spécifique à un service », a-t-il ajouté.

« Le jour où il y aura des nuages avec une disponibilité de 100 % sera le jour où tous les problèmes de ce monde seront éliminés », a déclaré John Strand, de Strand Consulting, une société de conseil spécialisée dans les télécommunications, au Danemark.

« À l’heure actuelle, tout le monde – et en particulier les hyperscalers – construit des tonnes de nouveaux centres de données à travers le monde », a-t-il déclaré à TechNewsWorld. « La taille et la complexité de ces centres explosent, et lorsque cela se produit, le risque que quelque chose se passe mal augmente. Je suis sûr qu’un grand nombre de ces problèmes seront éliminés avec le temps, tandis que de nouveaux problèmes surgiront. »

Mauvaise lecture de la signification de la fiabilité

Les entreprises ne surestiment pas la fiabilité du cloud ; ils ont simplement mal interprété ce que cela signifie réellement, a affirmé Sergiy Balynsky, vice-président de l’ingénierie chez Spin.AI, une société de cybersécurité spécialisée dans la protection des applications SaaS contre les ransomwares, la perte de données, les menaces internes et les risques de non-conformité, à Palo Alto, en Californie. « Le cloud n’est pas une solution miracle », a-t-il déclaré à TechNewsWorld. «C’est un modèle de responsabilité partagée.»

Il a noté que la panne d’AWS illustre parfaitement cela. « Les fournisseurs de cloud offrent des éléments de base très résilients (régions, zones de disponibilité, mécanismes de basculement) mais c’est à l’entreprise de concevoir la résilience et la continuité », a expliqué Balynsky.

« C’est exactement à cela que servent la planification de la continuité des activités (BCP) et les pratiques d’architecture solide ou SRE. Les équipes BCP et SRE planifient les pannes, répartissent les risques et maintiennent les systèmes critiques en fonctionnement pendant les pannes. S’appuyer sur une seule région ou ignorer la redondance n’est pas un échec du fournisseur. C’est un oubli architectural », a-t-il déclaré.

Si un client est préoccupé par la fiabilité, il peut dissiper ses inquiétudes en dupliquant ce qu’il fait d’une région à l’autre, a noté David Stone, directeur du bureau du RSSI de Google Cloud.

« Les clients peuvent absolument concevoir en matière de résilience en utilisant différents centres de données dans d’autres régions, en les déployant dans différentes zones de ces régions et en étant capables de construire ce cadre architecturé, au point même de pouvoir créer des applications couvrant des environnements multicloud pour la résilience », a-t-il déclaré à TechNewsWorld.

Srini Srinivasan, fondateur et directeur technique d’Aerospike, une société de bases de données NoSQL en temps réel basée à Mountain View, en Californie, a ajouté que les fournisseurs de cloud offrent une variété de fonctionnalités qui permettent à toute entreprise d’offrir une disponibilité extrêmement élevée. « Je veux dire comme quatre neuf », a-t-il déclaré à TechNewsWorld.

« Il n’y a aucune raison pour qu’une entreprise ne puisse pas y parvenir en utilisant l’une des fonctionnalités et capacités des fournisseurs de cloud existants », a-t-il déclaré. « L’erreur que les gens ont, c’est que le fournisseur de cloud résoudra tout à leur place. »

L’échelle n’équivaut pas à l’invulnérabilité

Cependant, Aykut Duman, partenaire dans le domaine du numérique et de l’analyse au sein de la société mondiale de conseil en stratégie et en gestion Kearney, a souligné que lors de la panne d’AWS, malgré le déploiement de charges de travail sur plusieurs zones de disponibilité, les organisations ont connu un temps d’arrêt complet en raison d’un échec de résolution DNS qui a perturbé les services de base tels que DynamoDB et EC2.

« Cet incident a révélé que la fiabilité dépend autant de l’architecture et de la distribution de la charge de travail que de l’infrastructure du fournisseur », a-t-il déclaré à TechNewsWorld. « Les entreprises supposent souvent que la redondance au niveau du fournisseur garantit la disponibilité, mais la résilience doit être délibérément conçue au niveau de l’application. » « Les entreprises surestiment la fiabilité du cloud, car elles assimilent souvent l’évolutivité du cloud à l’invulnérabilité », a-t-il déclaré. « Bien que les hyperscalers comme AWS, Microsoft et Google offrent une disponibilité impressionnante, aucun système n’est à l’abri d’une panne. »

« Les entreprises ont tendance à sous-estimer la complexité des services cloud interdépendants et la rapidité avec laquelle des pannes en cascade peuvent se produire sur les systèmes distribués », a-t-il poursuivi. « La fiabilité est élevée, mais pas absolue. La récente panne d’AWS a révélé l’idée fausse selon laquelle cloud natif signifie automatiquement résilience. »