Deutsch

RoCE-Protokoll: Neue Kraft für leistungsstarke Netzwerke

Veröffentlicht am 30. Sep 2024 by
29

RoCE-Protokoll: Neue Kraft für leistungsstarke Netzwerke

Mit dem Wachstum von Cloud Computing, Big Data und High-Performance-Computing steigt die Nachfrage nach Netzwerkleistung in Unternehmen und Rechenzentren weiter an. Herkömmliche Netzwerkprotokolle sind für die Übertragung großer Datenmengen und Anwendungen mit geringer Latenz oft ungeeignet.Aus diesem Grund wurde das RoCE-Protokoll (RDMA over Converged Ethernet) entwickelt.

Das RoCE-Protokoll dient als Clusternetzwerk-Kommunikationsprotokoll, das Remote Direct Memory Access (RDMA) über Ethernet ermöglicht. Dieses Protokoll überträgt Aufgaben zum Senden und Empfangen von Paketen an die Netzwerkkarte, sodass das System nicht in den Kernel-Modus wechseln muss, wie es für das TCP/IP-Protokoll typisch ist. Dadurch wird der mit dem Kopieren, Einkapseln und Entkapseln verbundene Overhead reduziert, was zu einer erheblichen Verringerung der Latenzbei der Ethernet-Kommunikation führt. Darüber hinaus wird die Auslastung der CPU-Ressourcen während der Kommunikation minimiert, die Überlastung des Netzwerks verringert und die effiziente Nutzung der Bandbreite verbessert.

Das RoCE-Protokoll besteht aus zwei Versionen: RoCE v1 und RoCE v2. RoCE v1 arbeitet mit dem Sicherungsschicht-Protokoll (auch „Link-Layer-Protokoll“) und erfordert, dass sich beide kommunizierenden Parteien im selben Schicht-2-Netzwerk befinden. Im Gegensatz dazu arbeitet RoCE v2 als Vermittlungsschicht-Protokoll (auch „Network-Layer-Protokoll“), sodass RoCE v2-Protokollpakete auf Schicht 3 weitergeleitet werden können, was eine bessere Skalierbarkeit ermöglicht.

Da KI-Modelle immer komplexer und umfangreicher werden, gibt es bei herkömmlichen Rechenzentrumsnetzwerken Schwierigkeiten, die Anforderungen der massiven Datenübertragung und -verarbeitung zu erfüllen.Um die Herausforderungen von KI/ML-Workloads zu bewältigen, benötigen Rechenzentren Systeme mit hoher Kapazität in flachen Architekturen, um eine Datenverarbeitung mit niedriger Latenz und hohem Durchsatz zu errmöglichen. FS hat 400G- und 800G-KI-Switches mit RoCE-Protokollunterstützung eingeführt, die die Latenz erheblich reduzieren und die Effizienz der Datenübertragung verbessern.

Der 400G-Switch verfügt über 128x QSFP112-Ports, die eine Weiterleitung mit Leitungsgeschwindigkeit unterstützen. Jeder Port kann als 100/200/400GbE konfiguriert werden, und mit Breakout-Kabeln unterstützt er 2x 200GbE- oder 4x 100GbE-Verbindungen. Typische Implementierungen unterstützen bis zu 8K 400G-Ports im Layer-2-Netzwerk und skalieren auf 32K 400G-Ports im Layer-3-Netzwerk. Das 800G-Modell bietet 64x OSFP-Ports. Jeder OSFP-Port kann als 400/800GbE konfiguriert werden. Zusätzlich unterstützt es 2x 400GbE, 4x 200GbE oder 8x 100GbE über Breakout-Kabel.

RoCE im HPC

Die neuesten Supercomputer in den Vereinigten Staaten verfügen über das innovative Slingshot-Netzwerk, eine verbesserte Version von Ethernet. Das Netzwerk nutzt Rosetta-Switches, die mit herkömmlichem Ethernet kompatibel sind und auf die spezifischen Einschränkungen von RoCE eingeht. Erweiterte Funktionen kommen ins Spiel, wenn beide Enden einer Verbindung dedizierte Geräte wie Netzwerkkarten und Rosetta-Switches unterstützen. Zu diesen Funktionen gehören die Minimierung der IP-Paket-Frame-Größe auf 32 Byte, die gemeinsame Nutzung von Warteschlangenbelegungsinformationen mit benachbarten Switches und die Implementierung einer verbesserten Überlastungskontrolle. Die durchschnittliche Switch-Latenz von 350 ns ist zwar mit Hochleistungs-Ethernet-Switches vergleichbar, bleibt aber hinter der niedrigen Latenz zurück, die von InfiniBand (IB) und einigen spezialisierten Supercomputer-Switches erreicht wird, einschließlich der vorherigen Generation der Cray XC-Supercomputer-Switches.

Zukünftige Herausforderungen

Mit einem kompetenten technischen Team und umfassender Erfahrung in verschiedenen Anwendungsszenarien hat sich FS das Vertrauen und die Wertschätzung vieler Kunden erworben. FS ist sich jedoch der Herausforderungen bei der Anwendung von RoCE auf High-Performance-Computing (HPC) bewusst, die sich aus den Anforderungen des Marktes und den Erfahrungen bei der Implementierung von Anwenderprojekten ergeben:

  • Ethernet-Switches weisen im Vergleich zu IB-Switches und bestimmten kundenspezifischen HPC-Netzwerk-Switches eine höhere Latenz auf.

  • Die Datenflusssteuerungs- und Überlastungskontrollmechanismen von RoCE sind verbesserungswürdig.

  • Die Kosten für Ethernet-Switches sind nach wie vor relativ hoch.

Fazit

Für diejenigen, die hochleistungsfähige und effiziente Rechenzentrumsnetzwerke suchen, ist die Auswahl der richtigen Netzwerklösung, die auf die spezifischen Anforderungen und Anwendungsszenarien zugeschnitten ist, ein entscheidender Schritt. FS bietet eine Reihe von Produkten an, darunter NVIDIA® InfiniBand Switches, 100G/200G/400G/800G InfiniBand Transceiver and NVIDIA® InfiniBand Adapter. FS hat sich damit als professioneller Anbieter von Kommunikations- und Hochgeschwindigkeits-Netzwerksystemlösungen für Netzwerke, Rechenzentren und die Telekommunikation etabliert.

Das könnte Sie auch interessieren

Kenntnisse
Kenntnisse
See profile for Jason.
Jason
Die Vorteile und Nachteile der Glasfaserkabel
07. Aug 2020
90.2k
Kenntnisse
Kenntnisse
See profile for Sheldon.
Sheldon
TCPIP vs. OSI: Was ist der Unterschied?
06. Jul 2022
81.4k
Kenntnisse
See profile for Sheldon.
Sheldon
Das ABC von PON: OLT, ONU, ONT und ODN
19. Aug 2020
29.8k
Kenntnisse
Kenntnisse
See profile for Sheldon.
Sheldon
Grundlagen von optischen Verteilern (ODF)
02. Apr 2019
4.8k
Kenntnisse
See profile for Sheldon.
Sheldon
LACP vs. PAGP: Was ist der Unterschied?
06. Jun 2022
7.6k
Kenntnisse
See profile for Vincent.
Vincent
Einführung zu BiDi-Transceivern
26. Jun 2020
11.1k
Kenntnisse
See profile for Moris.
Moris
Simplex- vs. Duplex-Glasfaserkabel
10. Jun 2021
43.8k