Ein Überblick über NVIDIA NVLink

Veröffentlicht am 29. Jan 2024 by

 179

NVIDIA NVLink hat sich zu einer entscheidenden Technologie in den Bereichen High-Performance-Computing (HPC) und künstliche Intelligenz (KI) entwickelt. Dieser Artikel befasst sich mit den Einzelheiten von NVLinkund informiert über NVSwitch-Chips, NVLink-Server und NVLink-Switches und beleuchtet die Bedeutung dieser Technologie in der sich ständig weiterentwickelnden Landschaft des Advanced Computing.

Was ist NVIDIA NVLink?

NVLink ist ein Protokoll, das die Kommunikationsbeschränkungen zwischen GPUs innerhalb eines Servers beseitigt. Im Gegensatz zu herkömmlichen PCIe-Switches, die eine begrenzte Bandbreite haben, ermöglicht NVLink eine direkte Hochgeschwindigkeitsverbindung zwischen GPUs innerhalb des Servers. Die vierte Generation von NVLink bietet eine deutlich höhere Bandbreite - 112 Gbps pro Lane - im Vergleich zu PCIe Gen5 Lanes, was dreimal so schnell ist.

NVLink

NVLink zielt darauf ab, ein rationalisiertes Hochgeschwindigkeits-Punkt-zu-Punkt-Netzwerk für direkte GPU-Verbindungen anzubieten, das den Overhead im Vergleich zu herkömmlichen Netzwerken minimiert. Durch die Bereitstellung von CUDA-Beschleunigung über verschiedene Schichten hinweg reduziert NVLink den kommunikationsbezogenen Netzwerk-Overhead. NVLink hat sich mit der GPU-Architektur weiterentwickelt, von NVLink1 für P100 bis NVLink4 für H100, wie in der Abbildung dargestellt. Der Hauptunterschied zwischen NVLink 1.0, NVLink 2.0, NVLink 3.0 und NVLink 4.0 liegt in der Verbindungsmethode, Bandbreite und Leistung.

NVSwitch-Chip

Der NVSwitch-Chip ist ein physischer Chip, der einem Switch-ASIC ähnelt und mehrere GPUs mit Hochgeschwindigkeits-NVLink-Schnittstellen verbindet, um die Kommunikation und Bandbreite innerhalb eines Servers zu verbessern. Die dritte Generation des NVIDIA NVSwitch wurde bereits vorgestellt und kann jedes GPU-Paar mit unglaublichen 900 GB/s miteinander verbinden.

NVLink`

Der neueste NVSwitch3-Chip mit 64 NVLink4-Ports bietet eine unidirektionale Bandbreite von insgesamt 12,8 Tbps oder eine bidirektionale Bandbreite von 3,2 TB/s. Das Besondere am NVSwitch3-Chip ist die Integration der SHARP-Funktion, die bei allen reduzierten Operationen die Berechnungsergebnisse über mehrere GPU-Einheiten hinweg aggregiert und aktualisiert, wodurch die Anzahl der Netzwerkpakete reduziert und die Rechenleistung erhöht wird.

NVLink

NVLink-Server

NVLink Server beinhalten NVLink und NVSwitch Technologien zur Verbindung von GPUs, wie sie typischerweise in NVIDIAs DGX Servern oder OEM HGX Servern mit ähnlichen Architekturen zu finden sind. Diese Server nutzen die NVLink Technologie und bieten außergewöhnliche GPU-Interkonnektivität, Skalierbarkeit und HPC-Funktionen. Im Jahr 2022 kündigte NVIDIA das NVIDIA® DGX™ System der vierten Generation an, die weltweit erste KI-Plattform, die mit dem neuen NVIDIA DGX H100 Server gebaut wird.

NVLink

Folglich sind NVLink Server in wichtigen Bereichen wie wissenschaftliches Rechnen, KI, Big Data-Verarbeitung und Rechenzentren unverzichtbar geworden. Durch die Bereitstellung stabiler Rechenleistung und effizienter Datenverarbeitung erfüllen NVLink Server nicht nur die anspruchsvollen Anforderungen dieser Bereiche, sondern treiben auch den Fortschritt voran und fördern Innovationen in diesen Bereichen.

NVLink

NVLink Switch

2022 nahm NVIDIA den NVSwitch-Chip vom Markt und und entwickelte auf dessen Basis einen Switch namens NVLink Switch, der GPU-Geräte über Hosts hinweg verbindet. Er hat ein 1HE-Design mit 32 OSFP-Ports; jeder OSFP umfasst 8 112G PAM4-Lanes, und jeder Switch hat zwei integrierte NVSwitch3-Chips.

NVLink

NVLink-Netwerk

Der physische NVSwitch-Switch verbindet mehrere NVLink-GPU-Server zu einem großen Fabric-Netzwerk, dem NVLink-Netzwerk, und löst so Probleme mit der Hochgeschwindigkeitskommunikation und der Effizienz zwischen den GPUs. Jeder Server verfügt über einen eigenen, unabhängigen Adressraum, derdie Datenübertragung, die Isolierung und den Sicherheitsschutz für GPUs im NVLink-Netzwerk gewährleistet. Wenn das System startet, stellt das NVLink-Netzwerk automatisch eine Verbindung über die Software-API her und kann die Adresse während des Betriebs ändern.

NVLink

Die Abbildung vergleicht NVLink-Netzwerke mit herkömmlichen Ethernet-Netzwerken und demonstriert die Schaffung eines von IP-Ethernet unabhängigen NVLink-Netzwerks, das speziell für GPU-Dienste konzipiert ist.

Concept	Traditional Example	NVLink Network
Physical Layer	400G electrical/optical media	Custom-FW OSFP
Data Link Layer	Ethernet	NVLink custom on-chip HW and FW
Network Layer	IP	New NVLink Network Addressing and Management Protocols
Transport Layer	TCP	NVLink custom on-chip HW and FW
Session Layer	Sockets	SHARP groupsCUDA export of Network addresses of data-structures
Presentation Layer	TSL/SSL	Library abstractions (e.g., NCCL, NVSHMEM)
Application Layer	HTTP/FTP	Al Frameworks or User Apps
NIC	PCIe NIC (card or chip)	Functions embedded in GPU and NVSwitch
RDMA OffLoad	NIC Off-Load Engine	GPU-internal Copy Engine
Collectives OffLoad	NIC/Switch Off-Load Engine	NVSwitch-internal SHARP Engines
Security Off-Load	NIC Security Features	GPU-internal Encryption and "TLB" Firewalls
Media Control	NIC Cable Adaptation	NVSwitch-internal OSFP-cable controllers
Table: Traditional networking concepts mapped to their counterparts with the NVLink Switch System

nfiniBand Network vs. NVLink Netwerk

InfiniBand Network und NVLink Network sind zwei verschiedene Netzwerktechnologien, die in Hochleistungsrechnern und Rechenzentren zum Einsatz kommen. Sie weisen die folgenden Unterschiede auf:

Architektur und Design: InfiniBand Network ist eine offene Standard-Netzwerktechnologie, die serielle Hochgeschwindigkeitsverbindungen mit mehreren Kanälen verwendet und Punkt-zu-Punkt- und Multicast-Kommunikation unterstützt. NVLink Network ist eine proprietäre Technologie von NVIDIA, die für Hochgeschwindigkeits-Direktverbindungen zwischen GPUs entwickelt wurde.

Anwendung: InfiniBand Network wird häufig in HPC-Clustern und großen Rechenzentren eingesetzt. NVLink Network wird hauptsächlich in großen GPU-Clustern, HPC, AI und anderen Bereichen eingesetzt.

Bandbreite und Latenz: Das InfiniBand-Netzwerk bietet eine hohe Bandbreite und eine geringe Latenz bei der Kommunikation, was einen höheren Durchsatz und kürzere Übertragungsverzögerungen ermöglicht. NVLink Network bietet eine höhere Bandbreite und geringere Latenz zwischen GPUs, um einen schnellen Datenaustausch und kollaboratives Computing zu unterstützen. Nachfolgend der Bandbreitenvergleich zwischen dem H100 mit NVLink-Netzwerk und dem A100 mit IB-Netzwerk.

NVLink

Siehe auch-Getting to Know About InfiniBand.

Zusammenfassung

NVIDIA NVLink ist eine bahnbrechende Technologie, die die Bereiche HPC und KI revolutioniert hat. Seine Fähigkeit, die GPU-Kommunikation zu verbessern, die Leistung zu steigern und eine nahtlose Parallelverarbeitung zu ermöglichen, hat es zu einer unverzichtbaren Komponente in zahlreichen HPC- und KI-Anwendungen gemacht. Während sich die Landschaft des Advanced Computing weiter entwickelt, werden die Bedeutung und der Einfluss von NVLink weiter zunehmen, um Innovationen voranzutreiben und die Grenzen des Möglichen zu verschieben.