La croissance rapide de l’IA remodèle les besoins en infrastructure des centres de données. Même si beaucoup pensent que les puces constituent le principal goulot d’étranglement, l’offre n’est pas la principale contrainte. Le défi immédiat consiste à alimenter et à refroidir les systèmes à grande échelle.
Ce n’est pas le contrôle des GPU qui vous donnera le contrôle de l’économie de l’IA. Les processeurs sont certes importants, mais la disponibilité informatique ne constitue pas une contrainte majeure à la croissance. Les opérateurs doivent avoir l’assurance que l’infrastructure sous-jacente peut fournir de l’alimentation, du refroidissement et de la résilience à grande échelle. À l’heure actuelle, de nombreux marchés ne parviennent pas à fournir l’énergie et la fiabilité requises.
Ce passage des contraintes informatiques aux contraintes énergétiques affecte déjà les résultats des entreprises. Les délais changent, les capitaux sont dépensés sur des projets bloqués et, dans cette atmosphère, l’obtention d’électricité est devenue un avantage concurrentiel primordial. Quel que soit l’apparence de votre modèle, si vous ne pouvez pas fournir d’électricité et gérer le centre efficacement, alors votre modèle sophistiqué ne sert à rien.
Les exigences de conception des centres de données ont changé en raison des densités élevées au niveau des armoires, les clusters GPU consommant entre 30 et 60 kW par armoire. Les installations construites il y a à peine cinq ans sont peut-être déjà mal équipées pour supporter la charge soutenue et la puissance thermique requises aujourd’hui. Ainsi, vous pouvez disposer de toutes les puces de haute qualité que vous souhaitez, mais si une installation n’est pas équipée pour répondre à ces exigences, le silicium sous-jacent n’a plus d’importance.
Les délais de l’IA dépendent de l’infrastructure
Les préoccupations financières ou liées à la demande ne freinent pas les progrès ; les contraintes physiques le sont. Le plus gros problème est un site qui ne peut pas obtenir suffisamment d’électricité. Les sous-stations seraient utiles, mais les nouvelles constructions accusent des années de retard. Les commandes en souffrance d’équipements critiques sont courantes. Il n’est pas rare qu’un déploiement d’IA entièrement financé reste inactif, en attendant que l’infrastructure soit prête dans deux ans.
De tels retards ont un impact direct sur les résultats commerciaux. Le délai de mise sur le marché est perdu dans ce scénario. Les modèles d’IA doivent être formés et déployés, et si cela ne peut pas être fait dans les délais, le retour sur investissement s’éloigne encore plus. Les rendements projetés se réduisent lorsque les installations mettent plus de temps à être mises en service. Celui qui résoudra ces contraintes le plus rapidement s’emparera d’un marché au point mort. La préparation de l’infrastructure est donc une condition préalable au succès de l’IA.
La puissance est le nouvel avantage concurrentiel
En grande partie motivée par les charges de travail de l’IA, la demande en énergie des centres de données américains devrait augmenter considérablement. Selon l’Electric Power Research Institute (EPRI), les centres de données pourraient doubler leur part de l’électricité américaine d’ici 2030, pour atteindre 9 à 17 % de la production totale d’électricité.
L’ampleur du défi est considérable. Cependant, les plans d’expansion du réseau nécessaires pour soutenir cette croissance fonctionnent selon un calendrier différent : les centres de données peuvent être construits en moins de deux ans. Les projets de production et de transport d’électricité à grande échelle prennent souvent une décennie, voire plus.
Cette inadéquation temporelle crée un goulot d’étranglement. Même là où la capacité de production d’énergie existe, les contraintes de transmission et les délais d’interconnexion sont inadéquats, empêchant une quantité suffisante d’énergie d’atteindre les sites des centres de données.
L’énergie renouvelable a ses promesses, mais avec les cycles d’autorisation, les problèmes d’utilisation des terres et les défis d’intégration du réseau, les énergies renouvelables peuvent ajouter des niveaux supplémentaires de complexité.
Le principal déterminant de l’endroit où l’infrastructure d’IA peut être déployée n’est plus la terre ou le capital ; c’est désormais l’emplacement, plus précisément l’accès à l’énergie disponible. Cette contrainte est désormais la première préoccupation des développeurs de sites.
Les chaînes d’approvisionnement étendent les risques du projet
Comme pour les besoins en énergie, la disponibilité des équipements est un autre facteur important. Les délais de livraison des transformateurs, des appareillages de commutation, des systèmes UPS et des infrastructures de refroidissement s’étendent désormais souvent sur plus d’un an. Cette situation n’est plus considérée comme une perturbation temporaire mais comme le résultat d’une demande soutenue. Les hyperscalers, les fournisseurs de colocation et les opérateurs d’entreprise évoluent tous simultanément.
Dans ces conditions, l’ordre du jour traditionnel du développement des centres de données a été revu. Plutôt que de passer d’abord par la conception, puis par l’achat et enfin par la construction, les développeurs doivent désormais verrouiller les commandes d’équipement plus tôt. Même si les conceptions doivent encore être entièrement réalisées, des équipements sont commandés pour garantir une place dans la file d’attente de la chaîne d’approvisionnement.
Commander des équipements avant la conception finalisée introduit de nouveaux risques car cela nécessite un engagement en capital plus précoce. En conséquence, la flexibilité est réduite. S’il existe des écarts entre les hypothèses de conception et l’équipement livré, cela peut entraîner des coûts de reprise. Dans un marché qui évolue aussi vite que l’IA, ces retards ne sont pas seulement gênants ; ils sont financièrement importants.
Le refroidissement est une contrainte principale
Après les problèmes d’alimentation électrique et de chaîne d’approvisionnement, le refroidissement constitue un défi tout aussi crucial. Les systèmes pneumatiques traditionnels ne peuvent pas gérer correctement les charges thermiques générées par les racks GPU haute densité actuels. L’équipement est mis à rude épreuve et le risque de panne augmente en raison de la formation rapide de points chauds. L’infrastructure UPS, initialement conçue pour la résilience, peut devenir un handicap dans ces conditions de stress thermique.
Les stratégies de refroidissement avancées sont désormais obligatoires et non facultatives. Les méthodes considérées comme expérimentales, telles que le refroidissement liquide, le confinement des allées chaudes et les solutions directes sur puce, deviennent une pratique courante. De nouveaux modèles de distribution d’énergie, tels que des architectures à courant continu à haute tension, sont à l’étude pour réduire les pertes de conversion et répondre aux demandes de refroidissement.
Être prêt pour l’IA dépend désormais de vos capacités d’alimentation et de refroidissement. La modernisation des installations existantes ne suffira pas. Dans de nombreux cas, cela signifie repenser l’ensemble de la pile d’infrastructure.
Stratégie axée sur le pouvoir
Le modèle du pouvoir d’abord remodèle le développement. L’énergie n’est plus seulement un élément d’un projet plus vaste ; c’est une priorité. Le résultat est un modèle qui oblige les développeurs à conclure plus tôt des partenariats avec les services publics, à identifier les sites dotés d’une capacité de réseau existante ou extensible et, dans certains cas, à intégrer la production sur site pour réduire la dépendance à l’égard des infrastructures externes.
Les délais du projet ont également été révisés. L’équipement doit être acheté plus tôt. Pour accélérer le déploiement, une construction modulaire a été introduite. Plutôt que d’attendre que la capacité soit disponible, il est de plus en plus nécessaire de planifier conjointement les expansions avec les services publics. Ensemble, ces changements représentent un changement profond dans la façon dont les centres de données sont conçus et livrés.
Ce que cela signifie pour le secteur de l’IA
Le message adressé aux investisseurs est clair : le risque lié aux infrastructures est désormais un risque commercial. Supposer que la capacité sera disponible en cas de besoin n’est plus un plan judicieux. La disponibilité de l’énergie, les délais de la chaîne d’approvisionnement et les exigences en matière de refroidissement doivent tous être pris en compte dans les cycles de planification.
La sélection des fournisseurs, la stratégie du site et les modèles de déploiement doivent tous s’aligner sur ces contraintes d’infrastructure. Les projets qui proposent dès le début des solutions à tous les problèmes d’alimentation et de refroidissement auront un avantage mesurable.
L’IA impose un calcul entre l’infrastructure numérique et les systèmes énergétiques physiques. Les centres de données ne sont plus considérés comme des actifs immobiliers ou des environnements informatiques ; ce sont des composants sophistiqués d’écosystèmes énergétiques plus larges. À bien des égards, ils commencent à ressembler davantage aux services publics qu’aux infrastructures traditionnelles.
L’infrastructure décidera des gagnants de l’IA
Les modèles et les puces ne suffiront pas à stimuler l’essor de l’IA. Au lieu de cela, l’infrastructure régira ces technologies à grande échelle. L’alimentation, le refroidissement et la résilience de la chaîne d’approvisionnement sont désormais essentiels au succès ou à l’échec des initiatives d’IA.
Les organisations qui reconnaissent et adoptent cette nouvelle réalité évolueront plus rapidement, se déploieront plus tôt et capteront davantage de valeur marchande. Ceux qui ne le feront pas risqueront de prendre du retard sur un marché de plus en plus défini par l’état de préparation des infrastructures.
Ainsi, dans la course au développement de l’IA, les leaders ne seront pas nécessairement ceux qui disposent des meilleurs algorithmes, mais ceux qui ont le pouvoir de les faire fonctionner.
