Intelligentes verlustfreies Ethernet-Netzwerk für HPC (High-Performance-Computing)

Veröffentlicht am 18. Dez 2023 by

 167

Nach und nach entwickeln sich Rechenzentren in wahre Leistungszentren und die Größe der in ihnen untergebrachten Rechencluster nimmt stetig zu. Der steigende Bedarf an hochleistungsfähigen Verbindungsnetzwerken zwischen den Rechenknoten ist eine direkte Reaktion auf die steigenden Leistungserwartungen an das Netzwerk, das diese Rechenknoten miteinander verbindet. Die Integration von Netzwerken in Rechenzentren ist nahtlos zu einer unverzichtbaren Komponente der Rechenleistung von Rechenzentren geworden und spiegelt einen vorherrschenden Trend zur tiefgreifenden Verschmelzung von Datenverarbeitung und Netzwerken wider.

Die zunehmenden Anforderungen von High-Performance-Computing-Workloads an die Netzwerkinfrastruktur

Da revolutionäre Technologien wie 5G, Big Data, das Internet der Dinge (IoT) verschiedene Facetten der Gesellschaft durchdringen, ist der Weg zu einer intelligenten, digital zentrierten Gesellschaft in den nächsten zwei bis drei Jahrzehnten unvermeidlich. Die Rechenleistung von Rechenzentren hat sich zu einer starken treibenden Kraft entwickelt, wobei der Schwerpunkt nicht mehr auf der Skalierung der Ressourcen, sondern auf der Skalierung der Rechenleistung liegt. Die Branche hat das Konzept der Rechenleistungszentren, in denen Netzwerke eine zentrale Rolle bei der Ermöglichung von Hochleistungsrechnern in Rechenzentren spielen, weitgehend übernommen. Die Verbesserung der Netzwerkleistung ist ein entscheidender Faktor für die Steigerung der Rechenleistung von Rechenzentren.

Die Branche entwickelt sich unablässig an mehreren Fronten weiter, um die Rechenleistung zu verbessern. Der Fortschritt in der Single-Core-Chiptechnologie ist bei 3nm auf einen Engpass gestoßen. Zwar wird das Stapeln von Kernen zur Steigerung der Rechenleistung angestrebt, doch führt dies zu einem deutlichen Anstieg des Stromverbrauchs pro Einheit Rechenleistung, wenn die Anzahl der Kerne steigt. Die Entwicklung der Technologie für Recheneinheiten stößt an ihre Grenzen, denn das Mooresche Gesetz, das eine Verdoppelung der Leistung alle 18 Monate vorsieht, nähert sich der Erschöpfungsgrenze. High-Performance-Computing (HPC) ist unabdingbar geworden, um die steigende Nachfrage nach Rechenleistung zu befriedigen, insbesondere da sich die Skala der Rechencluster von der P-Skala zur E-Skala erweitert. Dieser Übergang erfordert eine immer höhere Leistung von Verbindungsnetzwerken, was einen deutlichen Trend in der tiefen Integration von Berechnungen und Netzwerken darstellt.

Beim High-Performance-Computing (HPC) geht es darum, die geballte Rechenleistung zu nutzen, um komplizierte wissenschaftliche Rechenaufgaben zu bewältigen, die über die Kapazität von Standard-Workstations hinausgehen, einschließlich Simulationen, Modellierung und Rendering. Da die Nachfrage nach Rechenleistung von der P-Skala auf die E-Skala ansteigt, wächst auch die Größe von Rechenclustern, was erhöhte Anforderungen an die Leistung von Verbindungsnetzwerken stellt. Die symbiotische Beziehung zwischen Berechnungen und Netzwerken wird immer deutlicher.

HPC stellt unterschiedliche Anforderungen an die Netzwerkleistung in drei typischen Szenarien:

In Szenarien mit geringer gegenseitiger Abhängigkeit zwischen Rechenknoten, wie z. B. bei der Bewertung finanzieller Risiken oder der Remote-Überwachung, sind die Anforderungen an die Netzleistung relativ bescheiden.
Szenario mit enger Kopplung:: Szenarien mit enger Kopplung, wie z. B. elektromagnetische Simulationen und Flüssigkeitsdynamik, zeichnen sich durch eine hohe Koordinationsabhängigkeit zwischen Rechenknoten, die Synchronisierung von Berechnungen und eine schnelle Informationsübertragung aus. Diese Szenarien erfordern eine niedrige Netzlatenz und machen eine Netzbereitstellung mit niedriger Latenz erforderlich.
Datenintensives Rechenszenario:: In datenintensiven Szenarien wie der Wettervorhersage und der DNA-Sequenzierung, in denen Rechenknoten große Datenmengen verarbeiten und umfangreiche Zwischendaten erzeugen, ist ein Netz mit hohem Durchsatz von entscheidender Bedeutung, was mit spezifischen Anforderungen an die Netzlatenz einhergeht.

Zusammenfassend lässt sich sagen, dass High-Performance-Computing (HPC) strenge Anforderungen an einen hohen Durchsatz und eine geringe Latenzzeit für Netzwerke stellt. Um diese Anforderungen zu erfüllen, wird in der Branche häufig Remote Direct Memory Access (RDMA) als Ersatz für das TCP-Protokoll eingesetzt, um die Latenzzeit zu verringern und die CPU-Auslastung der Server zu minimieren. Trotz seiner Vorteile unterstreicht die Empfindlichkeit von RDMA gegenüber Paketverlusten im Netzwerk die Bedeutung eines verlustfreien Netzwerks.

Herkömmliche Netzwerke in Rechenzentren haben in der Vergangenheit symmetrische Multi-Hop-Architekturen verwendet, die auf der Ethernet-Technologie basieren und sich für die Übertragung auf den TCP/IP-Protokollstapel stützen. Trotz der mehr als 30-jährigen Entwicklung sind die inhärenten technischen Merkmale des traditionellen TCP/IP-Netzwerks jedoch weniger geeignet, um die Anforderungen des High-Performance-Computing (HPC) zu erfüllen. Mit der RDMA-Technologie (Remote Direct Memory Access), die TCP/IP allmählich als bevorzugtes Protokoll für HPC-Netzwerke ablöst, hat sich ein bedeutender Wandel vollzogen. Außerdem hat sich die Wahl des RDMA-Netzwerkprotokolls von teuren verlustfreien Netzwerken auf der Basis des InfiniBand (IB)-Protokolls zu intelligenten verlustfreien Netzwerken auf der Basis von Ethernet entwickelt. Die technischen Experten von FS werden die Gründe für diese technologischen Umstellungen und Fortschritte erläutern.

Von TCP zu RDMA

In üblichen Rechenzentren waren die Ethernet-Technologie und der TCP/IP-Protokoll-Stack die Norm für den Aufbau symmetrischer Multi-Hop-Netzwerkarchitekturen. Das TCP/IP-Netzwerk ist jedoch für die Anforderungen der High-Performance-Computing aufgrund von zwei wesentlichen Einschränkungen nicht mehr ausreichend:

Latenzprobleme:: Der TCP/IP-Protokoll-Stack verursacht aufgrund mehrerer Kontextwechsel im Kernel während des Empfangs/Übertragens von Paketen eine Latenzzeit von mehreren Mikrosekunden. Diese Latenz, die zwischen 5 und 10 Mikrosekunden beträgt, wird in Systemen auf Mikrosekundenebene zu einem Engpass, der sich auf Aufgaben wie die verteilte SSD-Speicherung auswirkt.
CPU-Auslastung: : Abgesehen von den Latenzproblemen macht das TCP/IP-Netzwerk die Beteiligung der Host-CPU an mehreren Speicherkopien innerhalb des Protokoll-Stacks erforderlich. Mit zunehmender Netzwerkgröße und Bandbreite führt dies zu einer erhöhten CPU-Planungslast, die zu einer anhaltend hohen CPU-Auslastung führt. Wenn man davon ausgeht, dass die Übertragung von 1 Bit an Daten 1 Hz an CPU-Frequenz verbraucht, erfordern Netzwerkbandbreiten von mehr als 25 G (bei voller Auslastung) einen erheblichen Teil der CPU-Kapazität.

Um diesen Herausforderungen zu begegnen, wurde auf der Serverseite die RDMA-Funktionalität eingeführt. RDMA, eine Technologie für den direkten Speicherzugriff, erleichtert den Datentransfer direkt zwischen den Computerspeichern, ohne die Betriebssysteme einzubeziehen. Es umgeht so die zeitaufwändigen Prozessoroperationen. Mit diesem Ansatz werden eine hohe Bandbreite, eine niedrige Latenz und eine geringe Ressourcenauslastung erreicht.

Von IB zu RoCE

Der Kernel-Bypass-Mechanismus von RDMA, wie er im folgenden Diagramm dargestellt ist, ermöglicht das direkte Lesen und Schreiben von Daten zwischen Anwendungen und Netzwerkkarten. Dadurch werden TCP/IP-Beschränkungen umgangen und die Latenz des Protokoll-Stacks auf fast 1 Mikrosekunde reduziert. Der Zero-Copy-Mechanismus von RDMA ermöglicht es dem Empfänger, Daten direkt aus dem Speicher des Senders zu lesen, was die CPU-Belastung erheblich reduziert und die CPU-Effizienz erhöht. Im Vergleich dazu kann ein TCP/IP-Datenfluss mit 40 Gbps alle CPU-Ressourcen sättigen, während bei RDMA mit 40 Gbps die CPU-Auslastung von 100 % auf 5 % sinkt, wobei die Netzwerklatenz von Millisekunden auf unter 10 Mikrosekunden sinkt.

hpc

Derzeit gibt es drei Optionen für RDMA-Vermittlungsschicht-Protokolle: InfiniBand, iWARP (Internet Wide Area RDMA Protocol) und RoCE (RDMA over Converged Ethernet).

InfiniBand: InfiniBand wurde speziell für RDMA entwickelt und garantiert ein verlustfreies Netzwerk auf Hardware-Ebene, das einen hohen Durchsatz und eine geringe Latenz bietet. Die geschlossene Architektur stellt jedoch eine Herausforderung für die Interoperabilität dar und birgt das Risiko der Herstellerbindung.
iWARP: Dieses Protokoll ermöglicht RDMA über TCP, wobei spezielle Netzwerkkarten verwendet werden, die Leistungsvorteile jedoch aufgrund der Einschränkungen des TCP-Protokolls verloren gehen.
RoCE: RoCE ermöglicht den Fernspeicherzugriff über Ethernet und wendet RDMA-Technologie auf Ethernet an. Da RoCE RDMA auf Standard-Ethernet-Switches unterstützt, sind lediglich spezielle Netzwerkkarten erforderlich. Es gibt zwei Versionen: RoCEv1 und RoCEv2. RoCEv2, ein Protokoll der Vermittlungsschicht, ermöglicht Routing-Funktionen und erlaubt den Zugriff zwischen Hosts in verschiedenen Broadcast-Domänen.

Trotz der Vorteile von RoCE erfordert seine Empfindlichkeit gegenüber Paketverlusten eine verlustfreie Ethernet-Unterstützung. Diese Entwicklung bei HPC-Netzwerken zeigt das ständige Streben nach verbesserter Leistung, Effizienz und Interoperabilität.

Fazit

Da die Anforderungen an Rechenzentren und High-Performance-Computing immer weiter steigen, bleibt die RDMA-Technologie ein entscheidender Faktor bei der Erleichterung von hochleistungsfähigen Datenübertragungen mit geringer Latenz. Die Entscheidung zwischen der InfiniBand-Technologie und RDMA-fähigen Ethernet-Technologien erfordert eine sorgfältige Abwägung der spezifischen Anforderungen und praktischen Bedürfnisse von Benutzern und Anbietern. Im Bereich des Super computing verfügt die InfiniBand-Technologie über ein breites Anwendungsspektrum und ein gut etabliertes System. Andererseits erweisen sich RoCE und iWARP als besser geeignet für High-Performance-Computing und Speicherszenarien in Ethernet-Umgebungen.

FS ist ein professioneller Anbieter von Kommunikations- und Hochgeschwindigkeitsnetzwerk-Systemlösungen für Netzwerke, Rechenzentren und die Telekommunikation. Durch den Einsatz von NVIDIA® InfiniBand Switches, 100G/200G/400G/800G InfiniBand Transceiver, und NVIDIA® InfiniBand Adapter bietet FS seinen Kunden ein komplettes Lösungspaket auf Basis von InfiniBand und verlustfreiem Ethernet (RoCE). Diese Lösungen erfüllen die unterschiedlichsten Anwendungsanforderungen und ermöglichen es Anwendern, ihr Geschäft zu beschleunigen und die Leistung zu steigern. Weitere Informationen finden Sie auf der offiziellen Website FS.COM.