InfiniBand vs. RoCE: Wie wählt man ein Netzwerk für ein KI-Rechenzentrum?

Aktualisierung: 17. Jan 2024 by

 136

In den letzten Jahren hat die künstliche Intelligenz große Fortschritte gemacht und eine breite Palette von Anwendungen wie die Verarbeitung natürlicher Sprache, Computer Vision, autonome Fahrzeuge, virtuelle Assistenten, Empfehlungssysteme und medizinische Diagnosen ermöglicht. In dem Maße, wie sich KI-Anwendungen weiterentwickeln, steigen die Anforderungen an Rechenzentren für Netzwerke mit niedriger Latenz und hoher Bandbreite, die komplexe Arbeitslasten effizient bewältigen können.

Einführung in InfiniBand-Netzwerke

Das InfiniBand-Netzwerk ermöglicht die Datenübertragung über InfiniBand-Adapter oder -Switches. Zu den wichtigsten Komponenten gehören der Subnet-Manager (SM), InfiniBand-Netzwerkkarten, InfiniBand-Switches und InfiniBand-Kabel.

NVIDIA ist ein führender Hersteller, der eine Reihe von InfiniBand-Netzwerkkarten unterstützt, einschließlich der schnell voranschreitenden 200Gbps-HDR- und der kommerziell eingesetzten 400Gbps-NDR-Karten (siehe folgende Abbildung).

Infiniband

InfiniBand-Switches führen keine Routing-Protokolle aus, und die Weiterleitungstabelle des gesamten Netzwerks wird vom zentralisierten Subnet-Manager berechnet und verteilt. Neben der Weiterleitungstabelle ist der Subnet-Manager auch für die Konfiguration von Aspekten innerhalb des InfiniBand-Subnetzes verantwortlich, z. B. Partitionierung und Quality of Service (QoS). Um Verbindungen zwischen Switches und zwischen Switches und Netzwerkkarten herzustellen, benötigen InfiniBand-Netzwerke spezielle Kabel und optische Module.

FS ist seit 2022 NVIDIA Elite Partner. Wir bieten eine komplette Reihe von Originalprodukten an, die auf den verlustfreien Infiniband-Netzwerklösungen basieren. Die Infiniband - Switches von FS können einen aggregierten Switch-Durchsatz von 16 TB/s und eine Switch-Latenz von unter 130 ns erreichen. Die Infiniband - Adapters von FS unterstützen die InfiniBand-Geschwindigkeiten NDR, NDR200, HDR, HDR100, EDR, FDR und SDR. Die IB Transceivers von FS erfüllen Konnektivitätsanforderungen für Entfernungen von 0,5 bis 2 km und bieten kostenlosen technischen Support. Mit einem hervorragenden Kundenservice und Produkten, die Kosten und Komplexität reduzieren und gleichzeitig eine außergewöhnliche Leistung für Server-Cluster bieten, ist FS Ihre beste Wahl.

Merkmale von InfiniBand-Netzwerklösungen

Natives verlustfreies Netzwerk

InfiniBand-Netzwerke verwenden einen auf Kapazität basierenden Signalisierungsmechanismus, um Pufferüberläufe und Paketverluste von vornherein zu verhindern. Bevor die Paketübertragung eingeleitet wird, vergewissert sich das sendende Ende, dass das empfangende Ende über genügend Kapazität verfügt, um die entsprechende Paketmenge aufnehmen zu können. Jede Verbindung im InfiniBand-Netz ist mit einem vordefinierten Puffer ausgestattet. Die Datenübertragung vom sendenden Ende wird durch die verfügbare Puffergröße am empfangenden Ende begrenzt. Nach Beendigung der Weiterleitung gibt die empfangende Seite den Puffer frei, aktualisiert die aktuell verfügbare Puffergröße und überträgt sie zurück an die sendende Seite. Dieser Flusskontrollmechanismus auf der Sicherungsschicht garantiert, dass die sendende Seite das Netz nicht mit zu vielen Daten überlastet, wodurch ein Pufferüberlauf und Paketverluste vermieden werden können.

Infiniband

Erweiterungsmöglichkeit für Netzwerkkarten

Das Adaptive Routing von InfiniBand basiert auf dynamischem Routing pro Paket und gewährleistet eine optimale Netzwerkauslastung bei umfangreichen Implementierungen. Zu den bemerkenswerten Beispielen für große GPU-Cluster in InfiniBand-Netzwerken gehören die in der Baidu AI Cloud und Microsoft Azure.

Derzeit bieten mehrere große Anbieter InfiniBand-Netzlösungen und zugehörige Geräte auf dem Markt an. NVIDIA dominiert diesen Sektor mit einem Marktanteil von über 70 %. Andere wichtige Anbieter sind:

Intel Corporation: Anbieter einer Reihe von InfiniBand-Netzprodukten und -lösungen.
Cisco Systems: Ein bekannter Hersteller von Netzwerkausrüstung, der InfiniBand-Switches und verwandte Produkte anbietet.
Hewlett Packard Enterprise (HPE): Ein bekanntes IT-Unternehmen, das verschiedene InfiniBand-Netzwerklösungen anbietet, darunter Adapter, Switches und Server.

Diese Anbieter stellen Produkte und Lösungen bereit, die auf die unterschiedlichen Benutzeranforderungen zugeschnitten sind und InfiniBand-Netzeinsätze in verschiedenen Größenordnungen und Anwendungsszenarien unterstützen.

Einführung in RoCE v2-Netzwerke

Während ein InfiniBand-Netzwerk auf einem zentral verwalteten System mit einem Subnet-Manager (SM) basiert, arbeitet ein RoCE v2-Netzwerk als vollständig verteiltes Netzwerk, das RoCEv2-fähige NICs und Switches umfasst und typischerweise in einer zweistufigen Architektur organisiert ist.

Infiniband

Verschiedene Hersteller bieten RoCE-fähige Netzwerkkarten an. Zu den wichtigsten Anbietern gehören NVIDIA, Intel und Broadcom. PCIe-Karten sind die vorherrschende Form von Netzwerkkarten für Server in Rechenzentren. RDMA-Karten verfügen in der Regel über eine Port-PHY-Geschwindigkeit ab 50 Gbit/s, und die derzeit erhältlichen kommerziellen Netzwerkkarten können Single-Port-Geschwindigkeiten von bis zu 400 Gbit/s erreichen.

Infiniband

Die meisten Switches für Rechenzentren unterstützen derzeit die RDMA-Datenflusssteuerungstechnologie, die in Verbindung mit RoCE-fähigen Netzwerkkarten eine durchgängige RDMA-Kommunikation ermöglicht. Weltweit führende Anbieter von Switches für Rechenzentren wie Cisco, Hewlett Packard Enterprise (HPE) und Arista bieten leistungsstarke und zuverlässige Switch-Lösungen für Rechenzentren an, die den Anforderungen großer Rechenzentren gerecht werden. Diese Unternehmen verfügen über umfassendes Fachwissen in den Bereichen Netzwerktechnologie, Leistungsoptimierung und Skalierbarkeit und haben sich damit weltweit Anerkennung und Akzeptanz verschafft.

Das Herzstück von Hochleistungs-Switches sind die in ihnen verwendeten Forwarding-Chips. Auf dem aktuellen Markt sind die Chips der Tomahawk-Serie von Broadcom als kommerzielle Forwarding-Chips weit verbreitet. Unter ihnen sind die Chips der Tomahawk3-Serie in aktuellen Switches vorherrschend, wobei die Zahl der Switches, die die neueren Chips der Tomahawk4-Serie unterstützen, allmählich zunimmt.

Infiniband

RoCE v2 arbeitet über Ethernet und ermöglicht die Verwendung von herkömmlichen Ethernet-Glasfasern und optischen Modulen.

Merkmale der ROCE v2 Netzwerklösung

Im Vergleich zu InfiniBand bietet RoCE die Vorteile einer größeren Vielseitigkeit und relativ geringerer Kosten. Es dient nicht nur zum Aufbau hochleistungsfähiger RDMA-Netze, sondern findet auch in herkömmlichen Ethernet-Netzen Verwendung. Die Konfiguration von Parametern wie Headroom, PFC (Priority-based Flow Control) und ECN (Explicit Congestion Notification) auf Switches kann jedoch komplex sein. Bei umfangreichen Implementierungen, insbesondere bei solchen mit zahlreichen Netzwerkkarten, kann die Gesamtdurchsatzleistung von RoCE-Netzwerken im Vergleich zu InfiniBand-Netzwerken leicht sinken.

Verschiedene Switch-Anbieter bieten Unterstützung für RoCE, und derzeit hat NVIDIAs ConnectX-Serie von Netzwerkkarten einen beträchtlichen Marktanteil in Bezug auf RoCE-Kompatibilität.

InfiniBand vs. RoCE v2

Aus technischer Sicht umfasst InfiniBand verschiedene Technologien zur Verbesserung der Netzwerkweiterleitungsleistung, zur Verkürzung der Fehlerbehebungszeit, zur Verbesserung der Skalierbarkeit und zur Vereinfachung der betrieblichen Komplexität.

Infiniband

In praktischen Geschäftsszenarien ist RoCEv2 eine gute Lösung, während sich InfiniBand als hervorragende Lösung erweist.

In Hinsicht auf die geschäftliche Leistung: InfiniBand hat aufgrund seiner geringeren End-to-End-Latenz im Vergleich zu RoCEv2 bei der Lestung auf der Anwendungsschicht Vorteile. Die Leistung von RoCEv2 ist jedoch auch in der Lage, die Anforderungen an die Geschäftsleistung der meisten intelligenten Computerszenarien zu erfüllen.

Infiniband

In Bezug auf die Unternehmensgröße: InfiniBand kann GPU-Cluster mit Zehntausenden von Karten unterstützen und dabei die Gesamtleistung ohne Einbußen beibehalten. Es gibt eine beträchtliche Anzahl von kommerziellen Anwendungsfällen in der Industrie. RoCEv2-Netzwerke können Cluster mit Tausenden von Karten unterstützen, ohne dass sich die Gesamtleistung des Netzwerks wesentlich verschlechtert.

Im Hinblick auf Geschäftsbetrieb und Wartung: InfiniBand ist ausgereifter als RoCEv2 und bietet Funktionen wie die Isolierung mehrerer Benutzer und betriebliche Diagnosefunktionen.

In Bezug auf die Geschäftskosten: InfiniBand ist teurer als RoCEv2, was vor allem auf die höheren Kosten von InfiniBand-Switches im Vergleich zu Ethernet-Switches zurückzuführen ist.

In Bezug auf die Anbieter: NVIDIA ist der Hauptlieferant für InfiniBand, während es für RoCEv2 mehrere Lieferanten gibt.

Zusammenfassung

Zusammenfassend lässt sich sagen, dass sich InfiniBand bei der komplizierten Auswahl der Netzwerktechnologie für intelligente Rechenzentren als die bevorzugte Lösung erweist, die der Rechenumgebung erhebliche Vorteile bietet.

InfiniBand zeichnet sich durch hervorragende Leistung und Zuverlässigkeit aus, insbesondere in Hochleistungs-Rechenumgebungen. Durch den Einsatz von InfiniBand können intelligente Rechenzentren Daten mit hoher Bandbreite und niedriger Latenz übertragen und so effizientere Berechnungen und Datenverarbeitung ermöglichen. Dies wiederum führt zur Bereitstellung außergewöhnlicher Dienste und Benutzererfahrungen. Mit Blick auf die Zukunft werden intelligente Rechenzentren ihre Erforschung und Einführung fortschrittlicher Netzwerktechnologien fortsetzen, die Rechenkapazitäten kontinuierlich steigern und die wissenschaftliche Forschung und Innovation vorantreiben.