DDC-Technologie: Bahnbrechende Lösung von AIGC Network

Veröffentlicht am 18. Jan 2024 by

 157

Bis zum Jahr 2023 wird die Technologie von AIGC (Artificial Intelligence Generated Content), Paradebeispiel ist hier ChatGPT, florieren und die Branche in mehreren Bereichen verändern, z. B. bei der Texterstellung, der Codeentwicklung und dem Schreiben von Poesie. In diesem Artikel befassen wir uns mit der bahnbrechenden DDC-Technologie für Netzwerke, einer bahnbrechenden Lösung, die von AIGC Network eingeführt wurde. Diese innovative Technologie verspricht, die Netzwerklandschaft zu revolutionieren und die Effizienz und Konnektivität in noch nie dagewesener Weise zu verbessern.

Drei Methoden der GPU-Lastverteilung

Die außergewöhnliche Leistungsfähigkeit der oben erwähnten großen AIGC-Modelle ist nicht nur auf die riesigen Datenmengen zurückzuführen, sondern auch auf die kontinuierliche Weiterentwicklung der Algorithmen. Beim Training dieser großen Modelle werden oft mehrere GPUs benötigt, um die Arbeitslast zu verteilen. Drei Methoden werden eingesetzt, um eine effiziente Lastverteilung zu erreichen: Datenparallelität, Tensor-Parallelität und Pipeline-Parallelität.

Datenparallelität

Bei der Datenparallelität werden die Eingabedaten des Modells in mehrere Mini-Batches aufgeteilt und diese Mini-Batches parallel auf verschiedenen GPUs verarbeitet. Jeder Grafikprozessor verfügt über eine vollständige Kopie des Modells und verarbeitet unabhängig seine eigenen Mini-Batches. Durch Kommunikation und Synchronisierung zwischen den GPUs werden die Modellparameter aktualisiert und integriert. Die Datenparallelität eignet sich für Modelle mit großen Trainingsdatensätzen, beschleunigt den Trainingsprozess und verbessert die Konvergenzgeschwindigkeit des Modells.

Tensor-Parallelität

Tensor-Parallelität wird in der Regel eingesetzt, wenn das Modell zu groß ist, um in den Speicher eines einzelnen Prozessors zu passen. Bei dieser Methode werden verschiedene Teile des Modells verschiedenen GPUs zugewiesen, wobei jede GPU für die Verarbeitung eines Teils der Eingabedaten und die Ausführung der entsprechenden Berechnungen zuständig ist. Durch häufige Kommunikation und Synchronisation zwischen den GPUs werden die Ergebnisse gesammelt und integriert, was zu einem hohen Kommunikationsaufwand führen kann. Für die Tensor-Parallelität sind Hochgeschwindigkeitsverbindungen zwischen den Prozessoren erforderlich, um die Austauschverzögerungen zu minimieren.

Pipeline-Parallelität

Bei der Pipeline-Parallelität wird der Berechnungsablauf des Modells in mehrere Stufen aufgeteilt und die Ausführung dieser Stufen auf verschiedene GPUs in einer Pipeline parallelisiert. Jede GPU übernimmt einen bestimmten Teil der gesamten Modellberechnung und leitet die verarbeiteten Ergebnisse an die nächste GPU für weitere Berechnungen weiter. Dies verkürzt die Gesamttrainingszeit und ist besonders vorteilhaft für Modelle mit komplexen Berechnungsabläufen und mehreren aufeinanderfolgenden Stufen, erfordert jedoch eine sorgfältige Verwaltung der Pipeline, um zu große Verzögerungen zu vermeiden, bei denen einige Prozessoren ihre Arbeit unterbrechen, während sie auf abhängige Berechnungsergebnisse warten. Manchmal werden diese drei parallelen Taktiken gekoppelt, um den Trainingsprozess zu verbessern.

Drei klassische Lösungen zur Unterstützung des Betriebs von AIGC

Es gibt drei gängige Lösungen zur Unterstützung des Betriebs von AIGC: InfiniBand, RDMA und Frame-Switches.

InfiniBand

InfiniBand ist eine Hochgeschwindigkeits-Interconnect-Technologie, die im High-Performance-Computing und in Rechenzentren eingesetzt wird. Zu den Vorteilen gehören eine hohe Bandbreite, geringe Latenzen und keine Überlastung. InfiniBand-Netzwerke können jedoch teuer sein und kosten ein Vielfaches der üblichen Ethernet-Netzwerke.

InfiniBand Networking

RDMA Networking

RDMA (Remote Direct Memory Access) ist ein neuartiger Kommunikationsmechanismus. Beim RDMA-Schema können Daten direkt mit der Netzwerkkarte kommunizieren, wobei die CPU und das komplexe Betriebssystem umgangen werden, was den Datendurchsatz deutlich erhöht und die Latenz verringert. Bisher wurde RDMA hauptsächlich über InfiniBand umgesetzt. Jetzt wird es nach und nach auf Ethernet portiert. Das aktuelle Mainstream-Netzwerkschema basiert auf dem RoCE v2-Protokoll, um ein Netzwerk aufzubauen, das RDMA unterstützt.

Auch lesenswert-RDMA over Converged Ethernet Guide.

RDMA Networking

Frame-Switch

Frame-Switch bezeichnet einen Netzwerk-Switch, der speziell für die Verarbeitung von Frame-basierten Protokollen wie Ethernet entwickelt wurde. Aufgrund der begrenzten Skalierbarkeit, des hohen Stromverbrauchs der Geräte und der hohen Anzahl an Fehlerquellen ist diese Technik jedoch nur für den Einsatz in kleinen KI-Computerclustern geeignet.

Neue Generation des AIGC-Netzwerks: DDC-Technologie

Aufgrund des Leistungsengpasses von herkömmlichem Ethernet leiden klassische Ansätze immer noch unter Leistungseinbußen durch Überlastungen und Paketverlusten und sind nicht ausreichend skalierbar. Als Antwort auf diese Einschränkungen wurde eine neuartige Lösung entwickelt, die als DDC (Distributed Disaggregated Chassis) bekannt ist. DDC zerlegt den herkömmlichen Frame-Switch, verbessert seine Skalierbarkeit und ermöglicht eine Anpassung der Netzwerkskalierung an die Größe des KI-Clusters.

Mit DDC werden nicht nur die Netzwerkanforderungen für das Training von KI-Modellen in großem Maßstab in Bezug auf Skalierbarkeit und Bandbreitendurchsatz erfüllt, sondern auch andere wichtige Aspekte des Netzwerkbetriebs berücksichtigt. Beim Netzwerkbetrieb geht es jedoch nicht nur um diese beiden Aspekte, sondern auch um die Optimierung von Latenzen, Lastausgleich, Verwaltungseffizienz usw. Um diese Herausforderungen zu bewältigen, beinhaltet DDC die folgenden technischen Vorgehensweisen:

VOQ+Cell-basierte Weiterleitungstechnik gegen Paketverluste

In Szenarien, in denen es im Netzwerk zu einem hohen Datenverkehrsaufkommen kommt, kann dies zu einer langsamen Verarbeitung beim Empfänger führen, was wiederum zu Überlastungen und Paketverlusten führt. Das DDC-System verwendet den VOQ+Cell-basierten Weiterleitungsmechanismus, der eine stabile Lösung bietet. Schauen wir uns den spezifischen Prozess genauer an:

Der Sender klassifiziert und speichert die Pakete nach dem Empfang in Virtual Output Queues (VOQs). Der Network Connection Point (NCP) überprüft die Pufferkapazität vor der Segmentierung und dem dynamischen Lastausgleich. Bei vorübergehenden Verarbeitungsbeschränkungen werden die Pakete in VOQs gespeichert, was die Stabilität der Kommunikation und die Bandbreitennutzung verbessert.

VOQ+Cell

PFC Single-Hop vermeidet Deadlocks vollständig

Verlustfreie RDMA-Netzwerke nutzen die PFC-Technologie (Priority Flow Control) zur Datenverkehrssteuerung, die die Erstellung mehrerer virtueller Kanäle für Ethernet-Verbindungen mit zugewiesenen Prioritäten ermöglicht. Die PFC-Implementierung ist jedoch nicht unproblematisch, insbesondere im Hinblick auf Deadlock-Probleme.

PFC Single-Hop Deployment

Im Kontext des DDC-Netzes ergibt sich ein entscheidender Vorteil daraus, dass alle Network Connection Points (NCPs) und Network Communication Functions (NCFs) als zusammenhängende Einheiten betrachtet werden, wodurch die Notwendigkeit von mehrstufigen Switches entfällt. Folglich umgeht DDC effektiv das mit PFC verbundene Deadlock-Problem und gewährleistet einen nahtlosen und ununterbrochenen Netzbetrieb.

NCFs

Dezentrales Betriebssystem für eine verbesserte Zuverlässigkeit

In der DDC-Architektur ist die Verwaltungsfunktion zentralisiert und wird von der Network Control Card (NCC) gesteuert. Diese zentrale Steuerung birgt jedoch das potenzielle Risiko eines Single Point of Failure. Um dieses Problem zu entschärfen, hat DDC ein dezentrales Betriebssystem, das individuelle Verwaltungsfunktionen für jeden Network Connection Point (NCP) und jede Network Communication Function (NCF) ermöglicht. Dieser dezentrale Ansatz umfasst unabhängige Kontroll- und Verwaltungsebenen für eine verbesserte Systemzuverlässigkeit und vereinfachte Implementierungsprozesse.

Fazit

DDC erfüllt die Netzwerkanforderungen, die mit dem Training von KI-Modellen in großem Maßstab verbunden sind, durch seine ausgeprägten technischen Vorgehensweisen effektiv. Darüber hinaus werden zahlreiche Aspekte sorgfältig optimiert, um die Stabilität und Effizienz des Netzwerks in vielfältigen und komplizierten Szenarien zu gewährleisten.