SuperNIC: Netzwerkbeschleuniger für KI

Veröffentlicht am 02. Feb 2024 by

 109

Mit zunehmender Komplexität und Skalierung von KI werden herkömmliche Netzwerklösungen den datenintensiven Anforderungen dieser fortschrittlichen Systeme oft nicht gerecht. Um die Probleme von KI-Workloads zu lösen, wurde SuperNIC entwickelt. In diesem Artikel werden wir uns die transformativen Fähigkeiten von SuperNIC ansehen und untersuchen, wie es die Netzwerkleistung revolutioniert und neue Grenzen für KI-gesteuerte Innovationen eröffnet.

Was ist eine SuperNIC?

SuperNIC repräsentiert eine neue Kategorie von Netzwerkbeschleunigern, die sorgfältig entwickelt wurden, um die Leistung von KI-Workloads im großen Maßstab in Ethernet-basierten Cloud-Umgebungen zu verbessern. Sie bieten eine beispiellose Netzwerkkonnektivität, die auf die GPU-zu-GPU-Kommunikation zugeschnitten ist und durch die Nutzung von Remote Direct Memory Access (RDMA) over Converged Ethernet (RoCE) Geschwindigkeiten von bis zu 400 Gb/s erreicht.

SuperNIC garantiert die effiziente und schnelle Ausführung von KI-Workloads und etabliert sie als grundlegendes Element, um die Zukunft des KI-Computings voranzutreiben. Diese Stärke ergibt sich aus den einzigartigen Eigenschaften von SuperNIC:

Durch die Nutzung von Echtzeit-Telemetriedaten und netzwerksensiblen Algorithmen wird eine fortschrittliche Überlastungssteuerung implementiert, um Überlastungen in KI-Netzwerken effektiv zu verwalten und zu verhindern.
Die schnelle Neuordnung von Paketen gewährleistet den Empfang und die Verarbeitung von Datenpaketen in der ursprünglichen Übertragungsreihenfolge, so dass die sequentielle Integrität des Datenflusses gewahrt bleibt.
Mit seinem stromsparenden, flachen Design eignet sich eine SuperNIC hervorragend für KI-Workloads mit begrenztem Energiebudget.
Die Fähigkeit zur programmierbaren Datenverarbeitung auf dem Ein-/Ausgabepfad (E/A) ermöglicht die Anpassung und Erweiterbarkeit der Netzwerkinfrastruktur in KI-Cloud-Rechenzentren.
Umfassende KI-Optimierung über den gesamten Stack hinweg, d. h. in den Bereichen Computing, Networking, Storage, Systemsoftware, Kommunikationsbibliotheken und Anwendungsframeworks.

KI fördert die Entwicklung von SuperNIC

Der Erfolg der künstlichen Intelligenz ist eng mit der GPU-beschleunigten Datenverarbeitung verknüpft, die für die Verarbeitung riesiger Datensätze, das Training umfangreicher KI-Modelle und die Erleichterung von Echtzeit-Inferenzen unerlässlich ist. Diese verbesserte Rechenleistung hat zwar neue Möglichkeiten eröffnet, gleichzeitig aber auch Herausforderungen für herkömmliche Netzwerke mit sich gebracht.

Herkömmliche Netzwerke, die grundlegende Technologie für die Internet-Infrastruktur, wurden ursprünglich entwickelt, um eine breite Kompatibilität zu gewährleisten und lose gekoppelte Anwendungen zu verbinden. Bei ihrer Entwicklung wurden die strengen Rechenanforderungen moderner KI-Arbeitslasten, die sich durch eng gekoppelte parallele Verarbeitung, schnelle Datenübertragungen und unterschiedliche Kommunikationsmuster auszeichnen, nicht berücksichtigt. Die herkömmlichen Netzwerkkarten(NICs) wurden für die allgemeine Datenverarbeitung, die universelle Datenübertragung und die Interoperabilität entwickelt, ohne die erforderlichen Merkmale und Fähigkeiten für eine effiziente Datenübertragung, niedrige Latenzzeiten und die für KI-Aufgaben entscheidende deterministische Leistung. Als Reaktion auf die Anforderungen aktueller KI-Workloads sind SuperNICs entstanden.

SuperNIC ist für KI-Computing-Umgebungen besser geeignet als DPU

DPUs (Data Processing Units) bieten viele fortschrittliche Funktionen, wie z. B. einen hohen Durchsatz und Netzwerkverbindungen mit geringer Latenz. Seit ihrer Einführung im Jahr 2020 haben DPUs im Cloud Computing an Popularität gewonnen, vor allem aufgrund ihrer Fähigkeit, die Verarbeitung der Rechenzentrumsinfrastruktur zu entlasten, zu beschleunigen und zu isolieren. Obwohl DPUs und SuperNICs über gemeinsame Funktionen verfügen, sind SuperNICs speziell für die Beschleunigung von KI-Netzwerken konzipiert. Die wichtigsten Vorteile sind im Folgenden aufgeführt:

Das 1:1-Verhältnis von GPUs zu SuperNICs in einem System kann die Effizienz von KI-Workloads erheblich verbessern, was zu einer höheren Produktivität und besseren Ergebnissen für Unternehmen führt.
SuperNICs bieten eine Netzwerkkapazität von 400 Gb/s pro GPU und übertreffen damit DPUs für verteilte KI-Trainings- und Inferenzkommunikationsflüsse.
Zur Beschleunigung von Netzwerken für KI-Cloud-Computing benötigen SuperNICs weniger Rechenleistung als DPUs, die eine erhebliche Menge an Rechenressourcen benötigen, um Anwendungen von der Host-CPU zu entlasten.
Die geringeren Rechenanforderungen führen auch zu einem niedrigeren Stromverbrauch, was für Multi-SuperNIC-Systeme äußerst nützlich ist.
Zu den speziellen KI-Netzwerkfunktionen von SuperNIC gehören adaptives Routing, Out-of-Order-Packet-Handling und optimierte Überlastungssteuerung, die alle zur Beschleunigung von Ethernet-KI-Cloud-Umgebungen beitragen.

	BlueField-3 DPU	BlueField-3 SuperNIC
Mission	Cloud infrastructure processor Offload, accelerate, and isolate data center infrastructure Optimized for N-S in GPU-class systems	Accelerated networking for Al computing Best-in-class RoCE networking Optimized for E-W in GPU-class systems
Shared Capabilities	VPC network acceleration Network encryption acceleration Programmable network pipeline Precision timing Platform security
Unique Capabilities	Powerful computing Secure, zero-trust management Data storage acceleration Elastic infrastructure provisioning 1-2 DPUs per system	Powerful networking Al networking feature set Full-stack NVIDIA Al optimization Power-efficient, low-profile design Up to 8 SuperNICs per system

Schlussfolgerung

TDer SuperNIC ist eine Art Netzwerkbeschleuniger für KI-Rechenzentren, der eine zuverlässige und reibungslose Verbindung zwischen GPU-Servers, ermöglicht und so eine zusammenhängende Umgebung für die Ausführung fortschrittlicher KI-Workloads schafft und zur kontinuierlichen Weiterentwicklung des KI-Computings beiträgt.