Ein Überblick über NVIDIA NVLink
NVIDIA NVLink hat sich zu einer entscheidenden Technologie in den Bereichen High-Performance-Computing (HPC) und künstliche Intelligenz (KI) entwickelt. Dieser Artikel befasst sich mit den Einzelheiten von NVLinkund informiert über NVSwitch-Chips, NVLink-Server und NVLink-Switches und beleuchtet die Bedeutung dieser Technologie in der sich ständig weiterentwickelnden Landschaft des Advanced Computing.
Was ist NVIDIA NVLink?
NVLink ist ein Protokoll, das die Kommunikationsbeschränkungen zwischen GPUs innerhalb eines Servers beseitigt. Im Gegensatz zu herkömmlichen PCIe-Switches, die eine begrenzte Bandbreite haben, ermöglicht NVLink eine direkte Hochgeschwindigkeitsverbindung zwischen GPUs innerhalb des Servers. Die vierte Generation von NVLink bietet eine deutlich höhere Bandbreite - 112 Gbps pro Lane - im Vergleich zu PCIe Gen5 Lanes, was dreimal so schnell ist.
NVLink zielt darauf ab, ein rationalisiertes Hochgeschwindigkeits-Punkt-zu-Punkt-Netzwerk für direkte GPU-Verbindungen anzubieten, das den Overhead im Vergleich zu herkömmlichen Netzwerken minimiert. Durch die Bereitstellung von CUDA-Beschleunigung über verschiedene Schichten hinweg reduziert NVLink den kommunikationsbezogenen Netzwerk-Overhead. NVLink hat sich mit der GPU-Architektur weiterentwickelt, von NVLink1 für P100 bis NVLink4 für H100, wie in der Abbildung dargestellt. Der Hauptunterschied zwischen NVLink 1.0, NVLink 2.0, NVLink 3.0 und NVLink 4.0 liegt in der Verbindungsmethode, Bandbreite und Leistung.
NVSwitch-Chip
Der NVSwitch-Chip ist ein physischer Chip, der einem Switch-ASIC ähnelt und mehrere GPUs mit Hochgeschwindigkeits-NVLink-Schnittstellen verbindet, um die Kommunikation und Bandbreite innerhalb eines Servers zu verbessern. Die dritte Generation des NVIDIA NVSwitch wurde bereits vorgestellt und kann jedes GPU-Paar mit unglaublichen 900 GB/s miteinander verbinden.
Der neueste NVSwitch3-Chip mit 64 NVLink4-Ports bietet eine unidirektionale Bandbreite von insgesamt 12,8 Tbps oder eine bidirektionale Bandbreite von 3,2 TB/s. Das Besondere am NVSwitch3-Chip ist die Integration der SHARP-Funktion, die bei allen reduzierten Operationen die Berechnungsergebnisse über mehrere GPU-Einheiten hinweg aggregiert und aktualisiert, wodurch die Anzahl der Netzwerkpakete reduziert und die Rechenleistung erhöht wird.
NVLink-Server
NVLink Server beinhalten NVLink und NVSwitch Technologien zur Verbindung von GPUs, wie sie typischerweise in NVIDIAs DGX Servern oder OEM HGX Servern mit ähnlichen Architekturen zu finden sind. Diese Server nutzen die NVLink Technologie und bieten außergewöhnliche GPU-Interkonnektivität, Skalierbarkeit und HPC-Funktionen. Im Jahr 2022 kündigte NVIDIA das NVIDIA® DGX™ System der vierten Generation an, die weltweit erste KI-Plattform, die mit dem neuen NVIDIA DGX H100 Server gebaut wird.
Folglich sind NVLink Server in wichtigen Bereichen wie wissenschaftliches Rechnen, KI, Big Data-Verarbeitung und Rechenzentren unverzichtbar geworden. Durch die Bereitstellung stabiler Rechenleistung und effizienter Datenverarbeitung erfüllen NVLink Server nicht nur die anspruchsvollen Anforderungen dieser Bereiche, sondern treiben auch den Fortschritt voran und fördern Innovationen in diesen Bereichen.
NVLink Switch
2022 nahm NVIDIA den NVSwitch-Chip vom Markt und und entwickelte auf dessen Basis einen Switch namens NVLink Switch, der GPU-Geräte über Hosts hinweg verbindet. Er hat ein 1HE-Design mit 32 OSFP-Ports; jeder OSFP umfasst 8 112G PAM4-Lanes, und jeder Switch hat zwei integrierte NVSwitch3-Chips.
NVLink-Netwerk
Der physische NVSwitch-Switch verbindet mehrere NVLink-GPU-Server zu einem großen Fabric-Netzwerk, dem NVLink-Netzwerk, und löst so Probleme mit der Hochgeschwindigkeitskommunikation und der Effizienz zwischen den GPUs. Jeder Server verfügt über einen eigenen, unabhängigen Adressraum, derdie Datenübertragung, die Isolierung und den Sicherheitsschutz für GPUs im NVLink-Netzwerk gewährleistet. Wenn das System startet, stellt das NVLink-Netzwerk automatisch eine Verbindung über die Software-API her und kann die Adresse während des Betriebs ändern.
Die Abbildung vergleicht NVLink-Netzwerke mit herkömmlichen Ethernet-Netzwerken und demonstriert die Schaffung eines von IP-Ethernet unabhängigen NVLink-Netzwerks, das speziell für GPU-Dienste konzipiert ist.
Concept
|
Traditional Example
|
NVLink Network
|
---|---|---|
Physical Layer
|
400G electrical/optical media
|
Custom-FW OSFP
|
Data Link Layer
|
Ethernet
|
NVLink custom on-chip HW and FW
|
Network Layer
|
IP
|
New NVLink Network Addressing and Management Protocols
|
Transport Layer
|
TCP
|
NVLink custom on-chip HW and FW
|
Session Layer
|
Sockets
|
SHARP groupsCUDA export of Network addresses of data-structures
|
Presentation Layer
|
TSL/SSL
|
Library abstractions (e.g., NCCL, NVSHMEM)
|
Application Layer
|
HTTP/FTP
|
Al Frameworks or User Apps
|
NIC
|
PCIe NIC (card or chip)
|
Functions embedded in GPU and NVSwitch
|
RDMA OffLoad
|
NIC Off-Load Engine
|
GPU-internal Copy Engine
|
Collectives OffLoad
|
NIC/Switch Off-Load Engine
|
NVSwitch-internal SHARP Engines
|
Security Off-Load
|
NIC Security Features
|
GPU-internal Encryption and "TLB" Firewalls
|
Media Control
|
NIC Cable Adaptation
|
NVSwitch-internal OSFP-cable controllers
|
Table: Traditional networking concepts mapped to their counterparts with the NVLink Switch System
|
nfiniBand Network vs. NVLink Netwerk
InfiniBand Network und NVLink Network sind zwei verschiedene Netzwerktechnologien, die in Hochleistungsrechnern und Rechenzentren zum Einsatz kommen. Sie weisen die folgenden Unterschiede auf:
Architektur und Design: InfiniBand Network ist eine offene Standard-Netzwerktechnologie, die serielle Hochgeschwindigkeitsverbindungen mit mehreren Kanälen verwendet und Punkt-zu-Punkt- und Multicast-Kommunikation unterstützt. NVLink Network ist eine proprietäre Technologie von NVIDIA, die für Hochgeschwindigkeits-Direktverbindungen zwischen GPUs entwickelt wurde.
Anwendung: InfiniBand Network wird häufig in HPC-Clustern und großen Rechenzentren eingesetzt. NVLink Network wird hauptsächlich in großen GPU-Clustern, HPC, AI und anderen Bereichen eingesetzt.
Bandbreite und Latenz: Das InfiniBand-Netzwerk bietet eine hohe Bandbreite und eine geringe Latenz bei der Kommunikation, was einen höheren Durchsatz und kürzere Übertragungsverzögerungen ermöglicht. NVLink Network bietet eine höhere Bandbreite und geringere Latenz zwischen GPUs, um einen schnellen Datenaustausch und kollaboratives Computing zu unterstützen. Nachfolgend der Bandbreitenvergleich zwischen dem H100 mit NVLink-Netzwerk und dem A100 mit IB-Netzwerk.
Siehe auch-Getting to Know About InfiniBand.
Zusammenfassung
NVIDIA NVLink ist eine bahnbrechende Technologie, die die Bereiche HPC und KI revolutioniert hat. Seine Fähigkeit, die GPU-Kommunikation zu verbessern, die Leistung zu steigern und eine nahtlose Parallelverarbeitung zu ermöglichen, hat es zu einer unverzichtbaren Komponente in zahlreichen HPC- und KI-Anwendungen gemacht. Während sich die Landschaft des Advanced Computing weiter entwickelt, werden die Bedeutung und der Einfluss von NVLink weiter zunehmen, um Innovationen voranzutreiben und die Grenzen des Möglichen zu verschieben.
Das könnte Sie auch interessieren
E-Mail-Adresse
-
Cat6a, Cat6, Cat5e und Cat5: die Unterschiede
06. Jun 2022