Conseils / A savoir dans l'efficacité énergétique et environnementale du bâtiment / Énergie et refroidissement pour l'IA et le calcul accéléré en centre de données

Énergie et refroidissement pour l'IA et le calcul accéléré en centre de données

Actualités

A savoir

Publié le 1 Septembre 2024

L'intelligence artificielle (IA) est désormais omniprésente et durable. Jensen Huang, fondateur et PDG de NVIDIA, a affirmé que « chaque secteur deviendra un secteur technologique ». Les applications de l'IA sont presque infinies, allant des progrès médicaux à la détection précise des fraudes. L'IA change déjà nos vies et modifie chaque secteur, tout en commençant à transformer significativement l'infrastructure des centres de données.

Energie alimentation

Les charges de travail liées à l'intelligence artificielle (IA) entraînent des changements importants dans la manière dont nous gérons l'alimentation et le refroidissement des données traitées dans le cadre de l'informatique haute performance (HPC). Traditionnellement, les racks informatiques fonctionnant avec des charges de 5 à 10 kilowatts (kW) sont considérés comme à haute densité, une caractéristique rare en dehors d'applications spécifiques à courte portée. Avec l'accélération de l'informatique par les GPUs pour répondre aux besoins des modèles d'IA, ces puces peuvent nécessiter jusqu'à cinq fois plus de puissance et de capacité de refroidissement dans un même espace par rapport aux serveurs classiques.

Mark Zuckerberg a récemment annoncé que Meta investirait des milliards pour déployer 350 000 GPU H100 de NVIDIA d'ici la fin de 2024. Ainsi, les densités de rack atteignant 40 kW se trouvent actuellement à la limite pour supporter les exigences des déploiements d'IA, tandis que des densités dépassant 100 kW par rack deviennent de plus en plus courantes à grande échelle dans un avenir proche.

Cela exigera des améliorations substantielles à tous niveaux de la chaîne d'alimentation, du réseau aux composants individuels dans chaque rack. L'adoption de technologies de refroidissement liquide dans les centres de données, voire dans les salles de serveurs d'entreprise, deviendra essentielle pour la plupart des déploiements, face à la chaleur accrue générée par les GPUs utilisés dans les calculs d'IA. Les investissements pour moderniser cette infrastructure afin de répondre aux besoins croissants en puissance et en refroidissement des équipements d'IA sont considérables, soulignant l'importance de relever ces nouveaux défis de conception avec sérieux et préparation.

Passage à une densité élevée

La transition vers le calcul accéléré est un processus graduel. Les architectes de datacenters doivent prévoir l'évolution de leur infrastructure d'alimentation et de refroidissement pour supporter la croissance future des charges de travail. Cela implique des améliorations du réseau jusqu'au rack, incluant potentiellement des systèmes de barre à haute intensité et des PDU à haute densité.
Pour dissiper efficacement la chaleur générée par les équipements utilisés pour les charges de travail d'IA, deux technologies de refroidissement liquide sont de plus en plus privilégiées :

Refroidissement liquide direct sur puce (D2C) : des plaques froides sont placées au-dessus des composants thermiques tels que les CPU et les GPU pour évacuer la chaleur. Un fluide monophase ou bi-phase est pompé pour extraire la chaleur de ces plaques froides, puis la transférer hors du datacenter, échangeant la chaleur sans mélanger les fluides avec la puce. Cette méthode peut éliminer environ 70 à 75 % de la chaleur générée par l'équipement dans le rack, laissant 25 à 30 % à être gérés par les systèmes de refroidissement à air.
Échangeurs thermiques de porte arrière : ces systèmes remplacent la porte arrière des baies informatiques par des serpentins d'échange thermique. Ils permettent au fluide de capter la chaleur produite dans le rack, soit pour maintenir une neutralité thermique dans la salle, soit pour faciliter la transition vers le refroidissement liquide.

Bien que le refroidissement liquide direct sur puce soit plus efficace que l'air, il ne capture pas toute la chaleur excédentaire, nécessitant des méthodes supplémentaires comme les échangeurs thermiques de porte arrière ou le refroidissement par air ambiant pour l'éliminer de la salle de données. Pour plus d'informations, consultez le Livre Blanc de Vertiv sur les solutions de refroidissement liquide pour les centres de données.

Kits de démarrage IA pour rénovations et nouvelles constructions

L'intégration de l'alimentation et du refroidissement est cruciale dans la conception des solutions informatiques en salle serveur, fusionnant les responsabilités entre les équipes informatiques et de maintenance et ajoutant une complexité notable. Des partenariats et une expertise en solutions complètes sont essentiels pour faciliter la transition vers des densités plus élevées.

Les conceptions de Vertiv permettent aux intégrateurs système, aux fournisseurs de colocation et des services Cloud et ainsi qu'aux entreprises de créer dès maintenant le data center du futur. Chaque installation peut varier en nombre et densité de racks selon le choix de l'équipement informatique, assurant une adaptation précise aux besoins de déploiement pour minimiser les perturbations des charges de travail existantes. Vertiv propose des solutions flexibles comme le refroidissement liquide direct sur puce avec échangeur thermique à porte arrière pour maintenir une solution de refroidissement neutre et des options liquide-à-air pour les installations refroidies par air, incluant des jeux de barres à forte intensité et des PDU en rack haute densité pour la distribution d'alimentation. Ces approches facilitent une transition progressive vers le refroidissement liquide haute densité, soutenue par l'expertise de Vertiv pour des déploiements efficaces de l'IA et du HPC.

Découvrez les solutions d’infrastructure haute densité de Vertiv pour les applications d’IA