Deutsch

Planung und Entwurf von intelligenten KI-Rechennetzwerkarchitekturen erklärt

Veröffentlicht am 27. Dez 2023 by
84

Die Netzwerke von Rechenzentren für herkömmliche Cloud-Konfigurationen sind in der Regel so konzipiert, dass der Datenverkehr vorrangig auf die Bedürfnisse der externen Kunden ausgerichtet ist. Diese Ausrichtung führt zu einem vorherrschenden Datenfluss von den Rechenzentren zu den Endbenutzern, eine Richtungsbewegung, die oft als North-South-Datenverkehr bezeichnet wird. Im Gegensatz dazu wird der Datenverkehr, der sich seitlich innerhalb der Cloud bewegt und als East-West-Datenverkehr bezeichnet wird, bei diesem Modell in den Hintergrund gerückt. Dennoch stößt diese grundlegende Netzwerkinfrastruktur, die VPC-Netzwerke (Virtual Private Cloud) ermöglicht und Smart Computing-Aufgaben unterstützt, auf eine Reihe von Schwierigkeiten.

Al Intelligent Computing Center Netzwerkarchitektur-1

Überlastung des Netzwerks: Nicht alle Server erzeugen gleichzeitig ausgehenden Datenverkehr. Um die Kosten für den Aufbau des Netzwerks zu kontrollieren, sind die Bandbreiten der Downlink-Ports auf Leaf-Switches und der Uplink-Ports nicht im Verhältnis 1:1, sondern mit einem Konvergenzverhältnis ausgelegt. Im Allgemeinen beträgt die Uplink-Bandbreite nur ein Drittel der Downlink-Bandbreite.

Hohe Latenz für internen Cloud-Datenverkehr: Für die Kommunikation zwischen zwei Servern über verschiedene Leaf-Switches müssen Spine-Switches durchlaufen werden, was zu einem Weiterleitungspfad mit drei Hops führt, was zusätzliche Latenzen mit sich bringt.

Begrenzte Bandbreite: In den meisten Fällen ist ein einzelner physischer Rechner mit nur einer Netzwerkkarte (NIC) für die Verbindung mit dem VPC-Netzwerk ausgestattet. Die Bandbreite einer einzelnen NIC ist relativ begrenzt. Die derzeit verfügbaren kommerziellen NICs überschreiten in der Regel keine 200 Gbps.

Für intelligentes Computing wird empfohlen, ein dediziertes Hochleistungsnetzwerk für intelligente Rechenlasten aufzubauen, das die Anforderungen an hohe Bandbreite, geringe Latenz und Verlustfreiheit erfüllt.

Design für hohe Bandbreiten

Die intelligenten Computing-Server können vollständig mit 8 GPPU-Karten ausgestattet werden und verfügen über 8 reservierte PCIe-Netzwerkkartensteckplätze. Beim Aufbau eines GPU-Clusters mit mehreren Rechnern kann die Burst-Bandbreite für die Kommunikation zwischen zwei GPUs 50 Gbps überschreiten. Daher ist es üblich, jede GPU mit einem Netzwerk-Port von mindestens 100 Gbps zu verbinden. In diesem Szenario können Sie entweder 4 Netzwerkkarten mit einer Kapazität von jeweils 2100 Gbps oder 8 Netzwerkkarten mit einer Kapazität von jeweils 1100 Gbps verwenden. Alternativ können Sie auch 8 Netzwerkkarten mit einer einzelnen Portkapazität von 200/400 Gbps verwenden.

Al Intelligent Computing Center Netzwerkarchitektur-2

Blockierungsfreies Design

Die Downlink- und Uplink-Bandbreite der Switches folgt einem nicht konvergenten 1:1-Design. Wenn zum Beispiel 64 Ports mit einer Bandbreite von jeweils 100 Gbps im Downlink vorhanden sind, gibt es auch 64 Ports mit einer Bandbreite von jeweils 100 Gbps im Uplink.

IDarüber hinaus sollten für Rechenzentren geeignete Switches verwendet werden, die eine blockierungsfreie Weiterleitung ermöglichen. Die auf dem Markt erhältlichen Mainstream-Switches für Rechenzentren bieten in der Regel eine nicht blockierende Weiterleitungsfunktion für alle Ports.

Design mit niedriger Latenzzeit: Al-Pool

Was das Design der Netzwerkarchitektur mit niedriger Latenz angeht, so hat Baidu Intelligent Cloud die Al-Pool-Netzwerklösung auf der Grundlage der Rail-Optimierung implementiert und eingesetzt. In dieser Netzwerklösung bilden 8 Access-Switches eine AA-Pool-Gruppe. Am Beispiel einer zweischichtigen Switch-Netzwerkarchitektur erreicht diese Netzwerkarchitektur eine One-Hop-Kommunikation zwischen verschiedenen intelligenten Rechenknoten innerhalb desselben Al-Pools.

In der Al-Pool-Netzwerkarchitektur sollten Netzwerk-Ports von verschiedenen intelligenten Rechenknoten mit demselben Switch verbunden werden, z. B. RDMA-Port 1 des intelligenten Rechenknotens 1, RDMAA-Port 1 des intelligenten Rechenknotens 2 usw., bis hin zum RDIMA-Port 1 des intelligenten Rechenknotens P/2, sollten alle mit dem Switch verbunden sein.

In jedem intelligenten Rechenknoten ordnet die Kommunikationsbibliothek der oberen Schicht die GPU-Karten den entsprechenden Netzwerk-Ports auf der Grundlage der Netzwerktopologie des Knotens zu. Dies ermöglicht eine direkte Kommunikation mit nur einem Hop zwischen zwei intelligenten Rechenknoten, die die gleiche GPU-Kartennummer haben.

Für die Kommunikation zwischen intelligenten Rechenknoten mit unterschiedlichen GPU-Kartennummern kann die Rail-Local-Technologie in der NCCL-Kommunikationsbibliothek die Bandbreite von NVSwitch zwischen GPUS innerhalb des Hosts voll ausnutzen und die kartenübergreifende Kommunikation zwischen mehreren Maschinen in eine maschinenübergreifende Kommunikation zwischen denselben GPU-Kartennummern umwandeln.

Al Intelligent Computing Center Network Architecture-3

Für die Kommunikation zwischen zwei physischen Maschinen über Al-PocIs hinweg müssen Aggregations-Switches durchlaufen werden, was zu einer Kommunikation über drei Hops führt.

Die Skalierbarkeit der GPUs, die das Netz unterstützen können, hängt von der Port-Dichte und der Netzarchitektur der verwendeten Switches ab. Je hierarchischer das Netz ist, desto mehr GPU-Karten kann es aufnehmen, aber die Anzahl der Hops und die Latenz für die Weiterleitung steigen ebenfalls. Daher sollte eine Abwägung auf der Grundlage der tatsächlichen geschäftlichen Anforderungen vorgenommen werden.

Zweistufige Fat-Tree-Architektur

8 Access-Switches bilden einen intelligenten Pool von Rechenressourcen, der als Al-Pool bezeichnet wird. Im Diagramm steht P für die Anzahl der Ports an einem einzelnen Switch. Jeder Switch kann maximal P/2 Downlink-Ports und P/2 Uplink-Ports haben, was bedeutet, dass ein einzelner Switch mit bis zu P/2 Servern und P/2 Switches verbunden werden kann. In einem zweistufigen Fat-Tree-Netzwerk können insgesamt P*P/2 GIPU-Karten eingesetzt werden.

Dreistufige Fat-Tree-Architektur

In einer dreistufigen Netzarchitektur gibt es zusätzliche Aggregations-Switch-Gruppen und Core-Switch-Gruppen. Die maximale Anzahl von Switches in jeder Gruppe ist P/2. Die maximale Anzahl der Aggregations-Switch-Gruppen beträgt 8, und die maximale Anzahl der Core-Switch-Gruppen beträgt P/2. Ein dreistufiges Fat-Tree-Netzwerk kann insgesamt P*(P/2)(P/2) = PP*P/4 GPU-Karten aufnehmen.

Im Kontext eines dreistufigen Fat-Tree-Netzwerks können die InfiniBand 40-Port 200 Gbps HDR-Switches maximal 16.000 GPUS unterstützen. Diese Größenordnung von 16.000 GPU-Karten ist derzeit das größte Netzwerk für GPU-Cluster mit InfiniBand in China, und Baidu hält den aktuellen Rekord.

Al Intelligente Rechenzentrumsnetzwerkarchitektur-4

Vergleich von zweistufigen und dreistufigen Fat-Tree-Netzwerkarchitekturen

Der Umfang der untergebrachten GPU-Karten

Der wichtigste Unterschied zwischen einem zweistufigen Fat-Tree und einem dreistufigen Fat-Tree liegt in der Kapazität zur Aufnahme von GPU-Karten. Im nachstehenden Diagramm steht N für die Anzahl der GPU-Karten und P für die Anzahl der Ports an einem einzelnen Switch. Bei einem Switch mit 40 Ports kann eine zweistufige Fat-Tree-Architektur beispielsweise 800 GPU-Karten unterstützen, während eine dreistufige Fat-Tree-Architektur 16.000 GPU-Karten unterstützen kann.

Al Intelligent Computing Center Netzwerkarchitektur-5

Weiterleitungspfad

Ein weiterer Unterschied zwischen der zweistufigen Fat-Tree- und der dreistufigen Fat-Tree-Netzwerkarchitektur besteht in der Anzahl der Sprünge im Netzwerkweiterleitungspfad zwischen zwei beliebigen Knoten.

In der zweistufigen Fat-Tree-Architektur beträgt der Weiterleitungspfad zwischen Knoten mit derselben GPU-Kartennummer innerhalb desselben intelligenten Computing-Ressourcenpools (Al-Pool) 1 Hop. Der Weiterleitungspfad zwischen Knoten mit unterschiedlichen GPU-Kartennummern beträgt ohne Rail Local-Optimierung innerhalb der intelligenten Rechenknoten 3 Hops.

In der dreistufigen Fat-Tree-Architektur beträgt der Weiterleitungspfad zwischen Knoten mit derselben GPU-Kartennummer innerhalb desselben Pools für intelligente Rechenressourcen (AI-Pool) 3 Hops. Der Weiterleitungspfad zwischen Knoten mit unterschiedlichen GPU-Kartennummern beträgt ohne Rail Local-Optimierung innerhalb der intelligenten Rechenknoten 5 Hops.

Al Intelligent Computing Center Netzwerkarchitektur-6

 

AI-HPC-Netzwerkarchitektur in der Praxis

Auf der Grundlage der derzeit ausgereiften kommerziellen Switches empfehlen wir mehrere Spezifikationen für physische Netzwerkarchitekturen, die die verschiedenen Modelle von InfiniBand/RoCE-Switches und den unterstützten Umfang von GPUS berücksichtigen.

Regulär: Zweistufige InfiniBand-Fat-Tree-Netzwerkarchitektur auf der Grundlage von InfiniBand-HDR-Switches, die maximal 800 GPU-Karten in einem einzigen Cluster unterstützen.

Groß: RoCE zweistufige Fat-Tree-Netzwerkarchitektur auf der Grundlage von 100G-Ethernet-Switches mit 128 Ports für Rechenzentren, die maximal 8192 GPU-Karten in einem einzigen Cluster unterstützen.

XLarge: Dreistufige InfiniBand-Fat-Tree-Netzwerkarchitektur auf der Grundlage von InfiniBand-HDR-Switches, die maximal 16.000 GPU-Karten in einem einzigen Cluster unterstützt.

XXLarge: Basierend auf InfiniBand Quantum-2-Switches oder gleichwertigen Ethernet-Rechenzentrums-Switches mit einer dreistufigen Fat-Tree-Netzwerkarchitektur, die maximal 100.000 GPU-Karten in einem einzigen Cluster unterstützt.

Al Intelligent Computing Center Netzwerkarchitektur-7

Gleichzeitig ist eine Hochgeschwindigkeits-Netzwerkkonnektivität für eine effiziente Datenübertragung und -verarbeitung unerlässlich.

FS bietet qualitativ hochwertige Netzwerkprodukte, um die Anforderungen der KI-Modell-Netzwerkimplementierung zu erfüllen. Die Produktpalette von FS umfasst InfiniBand-Switches (200G, 400G), Rechenzentrums-Switches (10G, 40G, 100G, 400G), Netzwerkkarten und optische Module (10/25G, 40G, 50/56G, 100G), die den Trainings- und Inferenzprozess von KI-Modellen beschleunigen können. Optische Module bieten eine hohe Bandbreite, geringe Latenz und niedrige Fehlerraten, was die Leistungsfähigkeit von Rechenzentrumsnetzwerken erhöht und schnelleres und effizienteres KI-Computing ermöglicht. Durch die Wahl der Netzwerkprodukte von FS kann die Netzwerkleistung optimiert und die Bereitstellung und der Betrieb von umfangreichen KI-Modellen unterstützt werden.

Das könnte Sie auch interessieren

Kenntnisse
Kenntnisse
See profile for Jason.
Jason
Die Vorteile und Nachteile der Glasfaserkabel
07. Aug 2020
85.7k
Kenntnisse
Kenntnisse
See profile for Sheldon.
Sheldon
TCPIP vs. OSI: Was ist der Unterschied?
06. Jul 2022
72.7k
Kenntnisse
See profile for Sheldon.
Sheldon
Das ABC von PON: OLT, ONU, ONT und ODN
19. Aug 2020
27.4k
Kenntnisse
Kenntnisse
See profile for Sheldon.
Sheldon
Grundlagen von optischen Verteilern (ODF)
02. Apr 2019
4.0k
Kenntnisse
See profile for Sheldon.
Sheldon
LACP vs. PAGP: Was ist der Unterschied?
06. Jun 2022
6.6k
Kenntnisse
See profile for Vincent.
Vincent
Einführung zu BiDi-Transceivern
26. Jun 2020
9.8k
Kenntnisse
See profile for Moris.
Moris
Simplex- vs. Duplex-Glasfaserkabel
10. Jun 2021
39.3k