Wie viel wissen Sie über InfiniBand In-Network Computing?

Aktualisierung: 17. Jan 2024 by

 166

InfiniBand spielt eine entscheidende Rolle bei High-Performance-Computing (HPC) und Anwendungen der künstlichen Intelligenz (KI), da es eine Hochgeschwindigkeits-Netzwerkkommunikation mit geringer Latenz zur Unterstützung von umfangreichen Datenübertragungen und komplexen Rechenaufgaben ermöglicht. Die Bedeutung von InfiniBand erstreckt sich auch auf den Bereich des In-Network Computing, wo seine Anwendungen allmählich erweitert werden. Durch die Ausführung von Rechenaufgaben innerhalb des Netzwerks reduziert InfiniBand die Latenzen weiter und verbessert die Effizienz des Gesamtsystems, was eine höhere Leistung und Intelligenz im HPC- und KI-Bereich ermöglicht.

InfiniBand In-Network Computing

InfiniBand In-Network Computing: Was ist das?

InfiniBand In-Network Computing (INC) ist eine Erweiterung der InfiniBand-Technologie zur Steigerung der Systemleistung durch die Einführung von Rechenfunktionen in das Netzwerk. Im Bereich des Netzwerk-Computings werden Probleme der kollektiven Kommunikation und Punkt-zu-Punkt-Engpässe bei KI- und HPC-Anwendungen effektiv angegangen, was neue Perspektiven und Lösungen für die Skalierbarkeit von Rechenzentren bietet.

Die Philosophie des In-Network Computing beinhaltet die Integration von Rechenfunktionen in die Switches und InfiniBand Adapters des InfiniBand-Netzes. Dies ermöglicht die Ausführung einfacher Rechenaufgaben gleichzeitig mit der Datenübertragung, wodurch die Notwendigkeit entfällt, Daten zur Verarbeitung an Endknoten wie Server zu übertragen.

InfiniBand In-Network Computing im Rechenzentrum

In den letzten Jahren hat sich die Entwicklung moderner Rechenzentren in einer neuartigen verteilten parallelen Verarbeitungsarchitektur manifestiert, die durch Cloud Computing, Big Data, High-Performance Computing und künstliche Intelligenz vorangetrieben wird. Ressourcen wie CPU, Arbeitsspeicher und Speicher sind über das gesamte Rechenzentrum verteilt und über Hochgeschwindigkeits-Netzwerktechnologien wie InfiniBand, Ethernet, Fibre Channel und Omni-Path miteinander verbunden. Kollaboratives Design und Arbeitsteilung erleichtern die gemeinsame Bewältigung von Datenverarbeitungsaufgaben und schaffen eine ausgewogene Systemarchitektur, in deren Mittelpunkt die Geschäftsdaten stehen.

InfiniBand In-Network Computing integriert die netzinterne Datenverarbeitung, indem es Rechenaufgaben im Netz ausführt und die Verantwortung für die Datenverarbeitung von der CPU auf das Netz überträgt, um die Latenz zu verringern und die Systemleistung zu verbessern. Durch Schlüsseltechnologien wie Netzwerkprotokoll-Offloading, RDMA und GPUDirect erreicht InfiniBand Funktionalitäten wie Online-Berechnungen, verringerte Kommunikationslatenz und optimierte Datenübertragungseffizienz. Diese tiefgreifende Integration der netzinternen Datenverarbeitung bietet eine wirksame Unterstützung für High-Performance-Computing.

Haupttechnologien von InfiniBand In-Network Computing

Offloading von Netzwerkprotokollen

NBeim Offloading von Netzprotokollen wird die CPU von der Verarbeitung netzbezogener Protokolle entlastet, indem diese Aufgaben auf spezielle Hardware verlagert werden.

InfiniBand-Netzwerkadapter und InfiniBand Switches übernehmen die Verarbeitung des gesamten Netzwerkkommunikationsprotokollstapels, einschließlich der Bitübertragungsschicht, der Sicherungsschicht, der Vermittlungsschicht und der Transportschicht. Durch diese Auslagerung wird der Bedarf an zusätzlicher Software und CPU-Verarbeitungsressourcen während der Datenübertragung eliminiert, was die Kommunikationsleistung erheblich verbessert.

RDMA

Die RDMA-Technologie (Remote Direct Memory Access) wurde entwickelt, um das Problem der serverseitigen Datenverarbeitungslatenz bei der Netzübertragung zu lösen. RDMA ermöglicht die direkte Datenübertragung vom Speicher eines Computers zu einem anderen, ohne die CPU einzubeziehen, wodurch die Latenz bei der Datenverarbeitung verringert und die Effizienz der Netzübertragung verbessert wird.

RDMA ermöglicht die direkte Übertragung von Daten aus Benutzeranwendungen in den Speicherbereich des Servers, die dann schnell über das Netz an den Speicher des entfernten Systems übertragen werden können. Dadurch entfällt die Notwendigkeit des mehrfachen Kopierens von Daten und des Austauschs von Text während des Übertragungsvorgangs, was zu einer erheblichen Verringerung der CPU-Last führt.

GPUDirect RDMA

GPUDirect RDMA ist eine Technologie, die die RDMA-Fähigkeit nutzt, um die direkte Kommunikation zwischen GPU-Knoten zu erleichtern und die Kommunikationseffizienz in GPU-Clustern zu verbessern.

In Szenarien, in denen zwei GPU-Prozesse auf verschiedenen Knoten innerhalb eines Clusters kommunizieren müssen, ermöglicht GPUDirect RDMA dem RDMA-Netzwerkadapter, Daten direkt zwischen den GPU-Speichern der beiden Knoten zu übertragen. Dadurch entfällt die Notwendigkeit einer CPU-Beteiligung am Kopieren von Daten, die Zugriffe auf den PCIe-Bus werden reduziert, unnötiges Kopieren von Daten wird minimiert und die Kommunikationsleistung wird erheblich gesteigert.

SHARP

Das SHARP-Protokoll (Scalable Hierarchical Aggregation and Reduction Protocol) ist eine Technologie zur Entlastung von kollektiven Kommunikationsnetzen, die zur Optimierung der Effizienz von High-Performance-Computing undkünstlicher Intelligenz entwickelt wurde, die kollektive Kommunikation beinhalten.

SHARP integriert eine Compute-Engine-Einheit in den InfiniBand-Switch-Chip, die verschiedene Festkomma- oder Gleitkommaberechnungen unterstützt. In einer Cluster-Umgebung mit mehreren Switches erstellt SHARP einen logischen Tree in der physischen Topologie, in dem mehrere Switches kollektive Kommunikationsvorgänge parallel und verteilt verarbeiten. Diese parallele und verteilte Verarbeitung des SHARP-Trees verringert die Latenz der kollektiven Kommunikation erheblich, minimiert die Netzwerküberlastung und verbessert die Skalierbarkeit des Clustersystems. Das Protokoll unterstützt Operationen wie „Barrier“, „Reduce“ und „All-Reduce“, wodurch die Effizienz der kollektiven Kommunikation in großen Rechenumgebungen verbessert wird.

InfiniBand In-Network Computing Anwendungen: HPC & KI

InfiniBand In-Network Computing findet aufgrund seiner Fähigkeit, die Gesamtsystemleistung und -effizienz zu verbessern, herausragende Anwendungen in HPC und KI.

InfiniBand-In-Network Computing im HPC

Im HPC-Bereich, in dem rechenintensive Aufgaben vorherrschen, ist InfiniBand ein wichtiges Instrument, um CPU/GPU-Ressourcenkonflikte zu entschärfen. Die kommunikationsintensive Natur von HPC-Aufgaben, die sowohl Punkt-zu-Punkt- als auch kollektive Kommunikation beinhalten, erfordert effektive Kommunikationsprotokolle. In diesem Zusammenhang werden Offloading-Techniken, RDMA, GPUDirect und SHARP-Technologien häufig eingesetzt, um die Rechenleistung zu optimieren.

InfiniBand In-Network Computing in KI

Künstliche Intelligenz ist eine Spitzentechnologie, die stark auf InfiniBand In-Network Computing angewiesen ist, um den Trainingsprozess zu beschleunigen und hochpräzise Modelle zu erhalten. In der aktuellen Landschaft dienen GPUs oder spezielle KI-Chips als Rechenkern in KI-Trainingsplattformen. Diese Plattformen nutzen InfiniBand, um das Training zu beschleunigen, ein Prozess, der für seine Rechenintensität bekannt ist. Die Auslagerung von Anwendungskommunikationsprotokollen ist entscheidend für die Verringerung der Latenzzeiten beim KI-Training. Die GPUDirect RDMA-Technologie wird eingesetzt, um die Kommunikationsbandbreite zwischen GPU-Clustern zu erhöhen und so Kommunikationsverzögerungen effektiv zu reduzieren.

Zusammenfassung

InfiniBand In-Network Computing, eine innovative Netzwerk-Computing-Technologie, bietet effiziente und zuverlässige Berechnungsunterstützung für HPC- und KI-Bereiche. Als eine der wichtigsten Innovationen im Bereich der Informationstechnologie wird InfiniBand In-Network Computing die kontinuierliche Weiterentwicklung und Evolution der Netzwerk-Computing-Technologie anführen. FS kann InfiniBand-Produkte im Zusammenhang mit KI-Lösungen anbieten, z. B. IB Switches, IB Network Karte, und IB-Modulkabel, die auf FS.com erworben werden können.