Français

Introduction au NVIDIA DGX H100

Mis à jour depuis le 11 mars, 2024 by
166

Le système NVIDIA DGX H100 se présente comme une solution dédiée et polyvalente conçue pour toutes les infrastructures et charges de travail d'IA, s'étendant de l'analytique et de la formation à l'inférence. Il comprend NVIDIA Base Command™ et la suite logicielle NVIDIA AI Enterprise, ainsi que des conseils d'experts de la part des NVIDIA DGXperts.

Caractéristiques du matériel et des composants du DGX H100

Aperçu du matériel

Le système NVIDIA DGX H100 640GB est composé des éléments suivants.

Hardware Overview

Connexions et commandes du panneau frontal

À gauche, une image du système DGX H100 avec cadre, à droite, une image du système DGX H100 sans cadre.

Front Panel Connections and Controls

Voici une image qui montre les différents modules du panneau sur le DGX H100.

real panel modules on DGX H100.

  • Dimensions : Montage en rack 8U, hauteur 14 pouces, largeur maximale 19 pouces, profondeur maximale 35,3 pouces.

  • Poids : Maximum 287,6 livres (130,45 kg).

  • Tension d'entrée : 200-240 volts AC.

  • Spécifications de chaque bloc d'alimentation : Maximum 10,2 kilowatts, 3300 watts @200-240 volts, 16 ampères, 50-60 hertz.

  • Prend en charge les connexions réseau à haut débit, y compris InfiniBand et Ethernet, avec des vitesses allant jusqu'à 400 Gbps.

Connexions et contrôles des ports externes

Le diagramme suivant illustre les connexions et les commandes de la carte mère dans un système DGX H100.

External Port Connections and Controls

  • Slot 1 : Carte ConnectX-7 à double port

  • Slot 2 : Carte ConnectX-7 à double port

  • Slot 3: Carte réseau Ethernet 100 Gb/s

  • Slot 4: Support M.2 PCle pour deux disques de démarrage NVMe de 1,92 To

  • 2 ports USB (clavier ou stockage)

  • Port série E/S

  • Port VGA (moniteur)

  • 1 GbE RJ-45 pour la gestion à distance du système

  • 10 GbE RJ-45 pour l'hôte distant

Composants du plateau de la carte mère

Le plateau de la carte mère du processeur est le composant central d'un serveur, qu'il s'agisse d'un serveur standard ou d'un serveur conçu pour l'intelligence artificielle. Il abrite des éléments essentiels, notamment la carte mère de l'unité centrale, la mémoire système, la carte réseau, le switch PCIE et divers autres composants. Voici une image montrant les composants du plateau de la carte mère du DGX H100.

Motherboard Tray Components

  • Mémoire système : Chaque 32 DIMMs fournit 2 TB de mémoire.

  • Gestion du système hors bande (BMC) : Prend en charge Redfish, IPMI, SNMP, KVM et l'interface utilisateur Web.

  • Gestion du système en bande : 3 interfaces RJ45 à double port 100GbE et 10GbE. Spécifications mécaniques et d'alimentation.

  • Stockage :

Stockage du système d'exploitation : 2 disques SSD NVMe M.2 de 1,92 To (matrice RAID 1).

Stockage du cache de données : 8 disques SSD NVMe U.2 de 3,84 To (matrice RAID 0).

Motherboard Tray Components

  • Réseau :  

Réseau Cluster : 4 ports OSFP, supportant InfiniBand (jusqu'à 400Gbps) et Ethernet (jusqu'à 400GbE).

Réseau de stockage : 2 cartes Ethernet NVIDIA ConnectX-7 à double port, prenant en charge Ethernet (jusqu'à 400GbE) et InfiniBand (jusqu'à 400Gbps).

Composants du plateau du GPU

Voici une image des composants du plateau du GPU dans un système DGX H100.

GPU Tray Components

  • Processeur graphique : 8 GPU NVIDIA H100, fournissant 640 Go de mémoire GPU.

Hopper H100 Tensor Core GPU

  • NVLink : 4 NVLinks de quatrième génération, fournissant 900 Go/s de bande passante de GPU à GPU.

Le plateau de cartes GPU est la partie centrale de l'assemblage du serveur AI. Son cœur est le plateau de cartes GPU, qui comprend des éléments essentiels tels que les composants GPU, les cartes de modules et les NVSwitches.

Topologie du système DGX H100

Voici une représentation de la topologie du système DGX H100, illustrant les connexions, les configurations et les interrelations entre les différents composants matériels d'un système.

DGX H100 System Topology

Les avantages fonctionnels du DGX H100

L'intelligence artificielle est devenue la solution privilégiée pour relever les défis commerciaux. Pour les entreprises, l'IA n'est pas seulement une question de performance et de fonctionnalité ; elle implique également une intégration étroite avec l'architecture et les pratiques informatiques de l'organisation. En tant que pionnier de l'infrastructure d'IA, le système DGX de NVIDIA fournit la plate-forme d'IA la plus puissante et la plus complète pour concrétiser ces idées fondamentales.

Le système est conçu pour optimiser le débit de l'IA, offrant aux entreprises une plateforme hautement raffinée, systématiquement organisée et évolutive pour permettre des percées dans le traitement du langage naturel, les systèmes de recommandation, l'analyse des données, et plus encore.

Le DGX H100 offre des options de déploiement polyvalentes, que ce soit sur site pour une gestion directe, en colocation dans les centres de données NVIDIA DGX-Ready, en location via NVIDIA DGX Foundry ou par l'intermédiaire de fournisseurs de services gérés certifiés par NVIDIA. Le programme de gestion du cycle de vie DGX-Ready garantit aux entreprises un modèle financier prévisible, en maintenant leur déploiement à la pointe de la technologie. Le DGX H100 est ainsi aussi convivial et accessible que l'infrastructure informatique traditionnelle, ce qui permet d'alléger la charge de travail du personnel informatique.

Cela pourrait également vous intéresser

Connaissances
Connaissances
Connaissances
See profile for Migelle.
Migelle
Switch PoE, PoE+ ou PoE++ : Lequel choisir ?
25 août, 2021
47.2k
Connaissances
See profile for Sheldon.
Sheldon
Quelle est la différence entre LACP et PAGP ?
29 déc, 2021
16.8k
Connaissances
See profile for Migelle.
Migelle
Switch PoE actif ou passif : lequel choisir ?
28 févr, 2022
19.9k
Connaissances
See profile for Vincent.
Vincent
Comprendre le transceiver bidirectionnel BiDi
05 janv, 2022
9.4k
Connaissances
See profile for Moris.
Moris
Câbles à fibre optique Simplex ou Duplex
25 nov, 2018
17.7k
Connaissances
See profile for Sheldon.
Sheldon
Quelle est la différence entre RIP et OSPF ?
10 juin, 2021
22.8k