Einführung zu NVIDIA DGX H100

Veröffentlicht am 25. Jan 2024 by

 66

Das NVIDIA DGX H100 System ist eine dedizierte und vielseitige Lösung für alle KI-Infrastrukturen und -Workloads, die von Analysen und Training bis hin zu Inferenzen reichen. Es umfasst NVIDIA Base Command™ und die NVIDIA AI Enterprise Software-Suite sowie die fachkundige Beratung durch NVIDIA DGXperts.

Merkmale der DGX H100-Hardware und -Komponenten

Hardware-Übersicht

Das NVIDIA DGX H100 640GB System umfasst die folgenden Komponenten.

Hardware Overview

Anschlüsse und Bedienelemente auf der Vorderseite

Links sehen Sie ein Bild des DGX H100 Systems mit Blende, rechts ein Bild des DGX H100 Systems ohne Blende.

Front Panel Connections and Controls

Hier ist ein Bild, das die eigentlichen Panelmodule des DGX H100 zeigt.

real panel modules on DGX H100.

Abmessungen: 8HE Rackmontage, Höhe 14 Zoll, maximale Breite 19 Zoll, maximale Tiefe 35,3 Zoll.
Gewicht: Maximal 287,6 Pfund (130,45 kg).
Eingangsspannung: 200–240 Volt AC.
Spezifikationen pro Netzteil: Maximal 10,2 Kilowatt, 3300 Watt bei 20–240 Volt, 16 Ampere, 50–60 Hertz.
Unterstützt Hochgeschwindigkeits-Netzwerkverbindungen, einschließlich InfiniBand und Ethernet, mit Geschwindigkeiten von bis zu 400 Gbit/s.

Externe Port-Verbindungen und Bedienelemente

Das folgende Diagramm zeigt die Anschlüsse und Bedienelemente der Hauptplatine in einem DGX H100-System.

External Port Connections and Controls

Slot 1: Dual-Port ConnectX-7 Card
Slot 2: Dual-Port ConnectX-7 Card
Slot 3: 100 Gb/s Ethernet NIC
Slot 4: M.2 PCle Carrier für Dual 1,92TB NVMe-Boot-Laufwerke
2xUSB-Ports (Tastatur oder Speicher)
Serieller l/O-Port
VGA-Port (Bildschirm)
1 GbE RJ-45 für die Systemfernverwaltung
10 GbE RJ-45 für Remote Host

Motherboard-Tray-Komponenten

Die CPU-Hauptplatine ist die zentrale Komponente eines Servers und umfasst sowohl Standardserver als auch solche, die für künstliche Intelligenz entwickelt wurden. Er beherbergt wichtige Elemente, darunter die CPU-Hauptplatine, den Systemspeicher, die Netzwerkkarte, den PCIE-Switch und verschiedene andere Komponenten. Das folgende Bild zeigt die Komponenten des Motherboard-Trays im DGX H100.

Motherboard Tray Components

Systemspeicher: Je 32 DIMMs bieten 2 TB Speicherplatz.
Out-of-Band-Systemverwaltung (BMC): Unterstützt Redfish, IPMI, SNMP, KVM und Web-Benutzeroberfläche.
In-Band-Systemverwaltung: 3 Dual-Port 100GbE und 10GbE RJ45 Schnittstellen. Mechanische und Leistungsspezifikationen.
Speicher:

Betriebssystemspeicher: 2 1,92 TB NVMe M.2 SSDs (RAID 1-Array).

Daten-Cache-Speicher: 8 3,84 TB NVMe U.2 SEDs (RAID 0-Array).

Motherboard Tray Components

Netzwerk:

Cluster-Netzwerk: 4 OSFP-Ports, die InfiniBand (bis zu 400 Gbps) und Ethernet (bis zu 400 GbE) unterstützen.

Speichernetzwerk: 2 NVIDIA ConnectX-7 Dual-Port-Ethernet-Karten, die Ethernet (bis zu 400 GbE) und InfiniBand (bis zu 400 Gbps) unterstützen.

Komponenten des GPU-Trays

Hier sehen Sie ein Bild der GPU-Tray-Komponenten in einem DGX H100-System.

GPU Tray Components

- Grafikprozessor: 8 NVIDIA H100 GPUs mit 640 GB GPU-Speicher.

Hopper H100 Tensor Core GPU

-NVLink: 4 NVLinks der vierten Generation, die 900 GB/s GPU-zu-GPU-Bandbreite bieten.

Das GPU Board Tray dient als zentraler Montagebereich innerhalb des AI-Servers. Sein Herzstück ist das GPU Board Tray, das wesentliche Elemente wie GPU-Komponenten, Modulkarten und NVSwitches enthält.

DGX H100-Systemtopologie

Hier sehen Sie eine Abbildung der DGX H100-Systemtopologie, die die Verbindungen, Konfigurationen und bhängigkeiten zwischen den verschiedenen Hardwarekomponenten innerhalb eines Systems veranschaulicht.

DGX H100 System Topology

Die funktionalen Vorteile des DGX H100

Künstliche Intelligenz ist zur bevorzugten Lösung für die Bewältigung anspruchsvoller geschäftlicher Herausforderungen geworden. Für Unternehmen geht es bei KI nicht nur um Leistung und Funktionalität, sondern auch um eine enge Integration mit der IT-Architektur und den Verfahren des Unternehmens. Als Pionier im Bereich der KI-Infrastruktur bietet das DGX-System von NVIDIA die leistungsstärkste und umfassendste KI-Plattform zur Umsetzung dieser grundlegenden Ideen.

Das System wurde entwickelt, um den KI-Durchsatz zu optimieren, und bietet Unternehmen eine hochentwickelte, systematisch organisierte und skalierbare Plattform, um Durchbrüche bei der Verarbeitung natürlicher Sprache, Empfehlungssystemen, Datenanalysen und mehr zu ermöglichen.

Der DGX H100 bietet vielseitige Bereitstellungsoptionen, sei es vor Ort für die direkte Verwaltung, als Colocation in NVIDIA DGX-Ready-Rechenzentren, zur Miete über NVIDIA DGX Foundry oder für den Zugriff über NVIDIA-zertifizierte Managed Service Provider. Das DGX-Ready Lifecycle Management Programm garantiert Unternehmen ein vorhersehbares Finanzmodell und hält ihre Bereitstellung an der Spitze der Technologie. Damit ist DGX H100 so benutzerfreundlich und zugänglich wie herkömmliche IT-Infrastrukturen und entlastet vielbeschäftigte IT-Mitarbeiter von zusätzlichen Aufgaben.ff.