Deutsch

Ende-zu-Ende-InfiniBand-Lösungen zum Ausgleich des Engpasses bei LLM-Training

Veröffentlicht am 25. Jan 2024 by
51

Der Einfluss von ChatGPT auf die Technologie hat zu Spekulationen über die Zukunft der KI geführt. Multimodalität hat an Aufmerksamkeit gewonnen, und OpenAI hat GPT-4, ein bahnbrechendes multimodales Modell, vorgestellt. GPT-4 stellt einen bemerkenswerten Fortschritt in verschiedenen Bereichen dar.

Diese beeindruckenden Fortschritte in der KI sind das Ergebnis eines umfangreichen Modelltrainings, für das umfangreiche Rechenressourcen und Hochgeschwindigkeitsdatenübertragungsnetze erforderlich sind. Das durchgängige InfiniBand-Netzwerk (IB) ist die ideale Wahl für Hochleistungsrechner und das Training von KI-Modellen. In diesem Artikel befassen wir uns mit dem Konzept des Trainings von großen Sprachmodellen (LLM) und untersuchen die Notwendigkeit des Ende-zu-Ende-Infiniband-Netzwerks, um den Engpass beim Training von LLM zu beheben.

ChatGPT

Gibt es irgendwelche Verbindungen zwischen LLM und ChatGPT?

Beim Training großer Sprachmodelle (LLMs) gibt es mehrere Engpässe, die vor allem mit der Datenübertragung und der Kommunikation innerhalb von GPU-Computing-Clustern zusammenhängen. Je größer die Sprachmodelle werden, desto wichtiger wird der Bedarf an schnellen und zuverlässigen Netzwerken. So können beispielsweise Modelle wie GPT-3 mit 1,75 Billionen Parametern nicht auf einer einzigen Maschine trainiert werden und sind in hohem Maße auf GPU-Cluster angewiesen. Der Hauptengpass liegt in der effizienten Datenübertragung zwischen den Knoten im Trainingscluster.

Two Stages of the LLM Training Bottleneck

Schritt 1: Ring-Allreduce

Ein häufig verwendeter GPU-Kommunikationsalgorithmus ist Ring-Allreduce, bei dem die GPUs einen Ring bilden, in dem die Daten fließen können. Jede GPU hat einen linken und einen rechten Nachbarn, wobei Daten nur an den rechten Nachbarn gesendet und vom linken Nachbarn empfangen werden. Der Algorithmus besteht aus zwei Schritten: Scatter-Reduce und Allgather. Im Schritt Scatter-Reduce tauschen die GPUs Daten aus, um einen Block des Endergebnisses zu erhalten. Im Schritt Allgather tauschen die GPUs diese Blöcke aus, um sicherzustellen, dass alle GPUs über das vollständige Endergebnis verfügen.

Stage 1: Ring-Allreduce

Schritt 2: Two-Stage Ring

In der Vergangenheit, als die Bandbreite begrenzt war und es keine NVLink- oder RDMA-Technologie gab, genügte ein großer Ring sowohl für die Verteilung auf einem einzelnen Rechner als auch auf mehreren Rechnern. Mit der Einführung von NVLink innerhalb eines einzelnen Rechners ist die gleiche Methode jedoch nicht mehr geeignet. Die Netzwerkbandbreite ist viel geringer als die Bandbreite von NVLink, so dass die Verwendung eines großen Rings die Effizienz von NVLink deutlich auf das Niveau des Netzwerks reduzieren würde. Darüber hinaus verhindert die Verwendung von nur einem Ring in der aktuellen Multi-NIC-Umgebung (Network Interface Card) die volle Nutzung mehrerer NICs. Daher wird ein zweistufiger Ringansatz (Two-Stage Ring) empfohlen, um diese Herausforderungen zu bewältigen.

In einem zweistufigen Ringszenario erfolgt die Datensynchronisierung zwischen GPUs innerhalb eines einzelnen Rechners, wobei der hohe Bandbreitenvorteil von NVLink genutzt wird. Anschließend richten GPUs auf mehreren Rechnern mehrere Ringe ein, die mehrere NICs verwenden, um Daten aus verschiedenen Segmenten zu synchronisieren. Schließlich synchronisieren sich die Grafikprozessoren innerhalb eines einzelnen Rechners ein weiteres Mal, wodurch die Datensynchronisierung über alle Grafikprozessoren hinweg abgeschlossen ist. Die NVIDIA Collective Communication Library (NCCL) spielt bei diesem Prozess eine entscheidende Rolle.

Stage 2: Two-Stage Ring

Die NVIDIA Collective Communication Library (NCCL) enthält optimierte Routinen für Multi-GPU- und Multi-Node-Kommunikation, die speziell für NVIDIA-GPUs und -Netzwerke entwickelt wurden. NCCL bietet effiziente Primitive für All-Collection-, All-Reduce-, Broadcast-, Reduce-, Reduce-Scatter- und Point-to-Point-Sende- und Empfangsoperationen. Diese Routinen sind für hohe Bandbreiten und niedrige Latenzzeiten optimiert und nutzen In-Node- und NVIDIA Mellanox-Netzwerke über PCIe- und NVLink-Hochgeschwindigkeitsverbindungen.

NCCL

Durch die Beseitigung von Engpässen bei der Datenübertragung und -kommunikation tragen Fortschritte bei GPU-Computing-Clustern und die Nutzung von Tools wie NCCL dazu bei, die Herausforderungen beim Training großer Sprachmodelle zu bewältigen, und ebnen den Weg für weitere Durchbrüche in der KI-Forschung und -Entwicklung.

Wie hilft die Ende-zu-Ende-Infiniband-Netzwerklösung?

Wenn es um das Training großer Modelle geht, ist Ethernet in Bezug auf die Übertragungsrate und die Latenzzeit unzureichend. Im Gegensatz dazu bietet das End-to-End-InfiniBand-Netzwerk eine High-Performance-Computing-Lösung, die Übertragungsraten von bis zu 400 Gbit/s und Latenzzeiten im Mikrosekundenbereich bietet und damit die Möglichkeiten von Ethernet übertrifft. Daher hat sich InfiniBand zur bevorzugten Netzwerktechnologie für groß angelegte Modell-Tranings entwickelt.

Datenredundanzmechanismen und Fehlerkorrekturmechanismen

Ein wesentlicher Vorteil des Ende-zu-Ende-Infiniband-Netzwerks ist die Unterstützung von Datenredundanz-und Fehlerkorrekturmechanismen, die eine zuverlässige Datenübertragung gewährleisten. Dies ist vor allem bei der Modell-Trainings in großem Maßstab von entscheidender Bedeutung, da die schiere Menge der zu verarbeitenden Daten dazu führt, dass sich Übertragungsfehler oder Datenverluste nachteilig auf den Trainingsprozess auswirken. Durch die Nutzung der robusten Funktionen von InfiniBand können Unterbrechungen oder Ausfälle, die durch Probleme bei der Datenübertragung verursacht werden, minimiert oder ganz vermieden werden.

Data Redundancy and Error Correction Mechanisms

Lokales Teilnetz Konfigurieren und Warten

In einem InfiniBand-Verbindungsprotokoll ist jeder Knoten mit einem Host Channel Adapter (HCA) ausgestattet, der für den Aufbau und die Aufrechterhaltung von Verbindungen mit Host-Geräten zuständig ist. Switches mit mehreren Ports erleichtern die Weiterleitung von Datenpaketen zwischen den Ports und ermöglichen eine effiziente Datenübertragung innerhalb von Teilnetzen.

Der Subnet Manager (SM) spielt eine entscheidende Rolle bei der Konfiguration und Wartung des lokalen Subnetzes, unterstützt durch das Subnet Manager Packet (SMP) und den Subnet Manager Agent (SMA) auf jedem InfiniBand-Gerät. Der SM erkennt und initialisiert das Netzwerk, weist allen Geräten eindeutige Bezeichner zu, bestimmt die Mindestübertragungseinheit (MTU) und generiert Switch-Routing-Tabellen auf der Grundlage ausgewählter Routing-Algorithmen. Außerdem führt er regelmäßige Scans des Subnetzes durch, um Änderungen in der Topologie zu erkennen, und passt die Netzwerkkonfiguration entsprechend an.

Kredit-basierte Flusskontrolle

Im Vergleich zu anderen Netzwerkkommunikationsprotokollen bieten InfiniBand-Netzwerke eine höhere Bandbreite, geringere Latenzzeiten und eine bessere Skalierbarkeit. Darüber hinaus verwendet InfiniBand eine kreditbasierte Flusskontrolle, bei der der Sendeknoten sicherstellt, dass er nicht mehr Daten überträgt, als im Empfangspuffer am anderen Ende der Verbindung verfügbar sind. Dadurch wird ein Paketverlustmechanismus wie der TCP-Window-Algorithmus überflüssig, so dass InfiniBand-Netze extrem hohe Datenübertragungsraten bei minimaler Latenz und CPU-Auslastung erzielen können.

Technologie für direkten Fernspeicherzugriff (Rdma)

InfiniBand nutzt die RDMA-Technologie (Remote Direct Memory Access), die eine direkte Datenübertragung zwischen Anwendungen über das Netzwerk ohne Beteiligung des Betriebssystems ermöglicht. Dieser Null-Kopie-Übertragungsansatz reduziert den CPU-Ressourcenverbrauch auf beiden Seiten erheblich und ermöglicht es Anwendungen, Nachrichten direkt aus dem Speicher zu lesen. Der verringerte CPU-Overhead steigert die Fähigkeit des Netzwerks, Daten schnell zu übertragen, und ermöglicht den Anwendungen, Daten effizienter zu empfangen.

Insgesamt bietet das Ende-zu-Ende-InfiniBand-Netzwerk erhebliche Vorteile für das Training großer Modelle, einschließlich hoher Bandbreite, geringer Latenz, Datenredundanz- und Fehlerkorrekturmechanismen. Durch die Nutzung der InfiniBand-Fähigkeiten können Forscher und Anwender Leistungsbeschränkungen überwinden, die Systemverwaltung verbessern und das Training umfangreicher Sprachmodelle beschleunigen.

FS bietet umfassende Ende-zu-Ende-Lösungen für InfiniBand-Netzwerke

FS bietet eine umfassende Ende-zu-Ende-Netzwerklösung, die fortschrittliche Komponenten wie NVIDIA Quantum-2-Switches und ConnectX InfiniBand Smartcardszusammen mit der flexiblen 400Gb/s-InfiniBand-Technologie nutzt. Mit unserem tiefgreifenden Verständnis von High-Speed-Networking-Trends und unserer umfangreichen Erfahrung bei der Implementierung von HPC- und KI-Projekten ist es FS von großer Bedeutung, unvergleichliche Leistung zu liefern und gleichzeitig Kosten und Komplexität in High-Performance Computing (HPC), KI und Hyper-Scale-Cloud-Infrastrukturen zu reduzieren.

Die Ende-zu-Ende-InfiniBand-Netzwerklösungen von FS ermöglichen es Unternehmen, das volle Potenzial von High-Performance-Computing, KI und Hyperscale-Cloud-Infrastrukturen zu nutzen. Durch die Bereitstellung einer überragenden Leistung, die Reduzierung von Kosten und die Vereinfachung der Netzwerkverwaltung ermöglicht FS seinen Kunden, an der Spitze der Innovation zu bleiben und ihre Geschäftsziele effizient zu erreichen.

Das könnte Sie auch interessieren

Kenntnisse
Kenntnisse
See profile for Jason.
Jason
Die Vorteile und Nachteile der Glasfaserkabel
07. Aug 2020
85.8k
Kenntnisse
Kenntnisse
See profile for Sheldon.
Sheldon
TCPIP vs. OSI: Was ist der Unterschied?
06. Jul 2022
72.8k
Kenntnisse
See profile for Sheldon.
Sheldon
Das ABC von PON: OLT, ONU, ONT und ODN
19. Aug 2020
27.4k
Kenntnisse
Kenntnisse
See profile for Sheldon.
Sheldon
Grundlagen von optischen Verteilern (ODF)
02. Apr 2019
4.0k
Kenntnisse
See profile for Sheldon.
Sheldon
LACP vs. PAGP: Was ist der Unterschied?
06. Jun 2022
6.6k
Kenntnisse
See profile for Vincent.
Vincent
Einführung zu BiDi-Transceivern
26. Jun 2020
9.8k
Kenntnisse
See profile for Moris.
Moris
Simplex- vs. Duplex-Glasfaserkabel
10. Jun 2021
39.4k