Deutsch

Zeitalter der KI: Wachstumsschub im Markt für optische Transceiver

Veröffentlicht am 19. Dez 2023 by
135

Das Aufkommen der Künstlichen Intelligenz (KI) war wesentlicher Beschleunigungsfaktor für transformative Veränderungen in verschiedenen Branchen. Ein solcher Bereich, der einen Paradigmenwechsel erlebt, ist der Markt für optische Transceiver. Dieser Artikel befasst sich mit den Auswirkungen der KI, insbesondere mit dem durch Modelle wie ChatGPT ausgelösten KI-Hype, auf die Umgestaltung von Rechenzentrumsnetzwerken und das Wachstum von optischen Hochleistungs-Transceivern. Der Schwerpunkt liegt jedoch auf dem für 2024 erwarteten Anstieg bei optischen 800G-Transceivern.

Der von ChatGPT ausgelöste KI-Hype

Die Entwicklung und der Einsatz von KI-Modellen wie ChatGPT haben eine neue Ära der Möglichkeiten eingeläutet. Diese Modelle, die auf fortschrittlichen Deep-Learning-Techniken basieren, sind in der Lage, menschenähnliche Texte zu verstehen und zu erzeugen. ChatGPT, als Vertreter dieses KI-Hypes, hat das Potenzial bewiesen, die Kommunikation zu verbessern und die Datenverarbeitung zu rationalisieren. Seine Fähigkeiten zur Verarbeitung natürlicher Sprache tragen zu einer effizienteren Interaktion zwischen Menschen und Maschine bei und sind daher von unschätzbarem Wert für die Optimierung des Betriebs von Rechenzentren. Der KI-Hype ist daher zu einer treibenden Kraft für den Bedarf an schnelleren, zuverlässigeren und leistungsfähigeren optischen Transceivern geworden.

Der Betrieb von ChatGPT erfordert stabile Cloud-Computing-Ressourcen. Das von OpenAI im Jahr 2018 veröffentlichte GPT-Modell hatte 117 Millionen Parameter und wurde mit etwa 5 GB an Pre-Training-Daten trainiert. Im Gegensatz dazu hat GPT-3 erstaunliche 175 Milliarden Parameter und wurde mit 45 TB an Daten trainiert. Allein während der Trainingsphase des Modells verbrauchte ChatGPT etwa 3640 PF-Tage an Rechenleistung, wobei sich die Trainingskosten ganze 12 Millionen US-Dollar beliefen. Der Verbrauch in der Phase des Servicezugriffs ist sogar noch höher. Es wird geschätzt, dass zur Deckung des Such- und Zugriffsbedarfs der derzeitigen ChatGPT-Benutzer eine Anfangsinvestition von etwa 3 bis 4 Milliarden US-Dollar in die Recheninfrastruktur, insbesondere in Server (GPUs), erforderlich war.

Wie KI die Netzwerke von Rechenzentren umgestaltet

Die Integration von KI in Rechenzentren hat die Infrastruktur der Datenübertragung neu definiert. Herkömmliche Rechenzentren, die für normale Rechenlasten ausgelegt sind, durchlaufen eine Wandlung, um den Anforderungen von KI-gesteuerten Anwendungen gerecht zu werden. Das Hauptunterscheidungsmerkmal liegt in der Art und Weise, wie Daten verarbeitet und übertragen werden.

Klassische Rechenzentren vs. KI-Rechenzentren

In einem herkömmlichen Rechenzentrum fließen die Daten durch eine hierarchische Netzwerkarchitektur, wobei jede Schicht zu Latenzen und potenziellen Engpässen führt. Ursprünglich verwendeten Rechenzentren das traditionelle dreistufige Modell, das die Zugriffsschicht, die Aggregationsschicht und die Kernschicht umfasste. Die Zugriffsschicht verband die Rechenknoten mit den Switch-Schränken, die Aggregationsschicht ermöglichte die Verbindungen zwischen den Zugriffsschichten und die Kernschicht verwaltete die Verbindungen zwischen den Aggregationsschichten und externen Netzwerken.

Als jedoch das Volumen des Ost-West-Datenverkehrs in den Rechenzentren rapide zunahm, sahen sich die Kern- und Aggregationsschicht der dreistufigen Netzwerkarchitektur mit wachsenden Aufgaben und höheren Leistungsanforderungen konfrontiert, was zu erheblich höheren Ausrüstungskosten führte. Daher wurde eine schlankere Leaf-Spine-Netzwerkarchitektur entwickelt, die auf den Ost-West-Datenverkehr zugeschnitten ist. In dieser überarbeiteten Architektur stellen die Leaf-Switches direkte Verbindungen zu den Rechenknoten her, während die Spine-Switches als Kern-Switches fungieren und dynamisch mehrere Pfade über Equal-Cost Multipath (ECMP) auswählen.

Die Leaf-Spine-Netzwerkarchitektur bietet mehrere Vorteile, darunter eine hohe Bandbreitennutzung, hervorragende Skalierbarkeit, vorhersehbare Netzwerklatenz und verbesserte Sicherheit. Diese Eigenschaften machen sie für den Einsatz in verschiedenen Rechenzentrumsszenarien weithin anwendbar und vorteilhaft.

Rechenzentrumsarchitektur

KI-Rechenzentren hingegen nutzen parallele Datenverarbeitung, verteilte Computing und Hochgeschwindigkeits-Verbindungen, um einen nahtlosen Datenfluss und minimale Latenzen zu gewährleisten. Der Bedarf an einer unblockierten Fat-Tree-Netzwerkarchitektur ist aufgrund des umfangreichen internen Datenverkehrs von entscheidender Bedeutung. Die KI-Rechenzentren von NVIDIA verwenden eine Fat-Tree-Netzwerkarchitektur, um eine blockierungsfreie Funktionalität zu gewährleisten.

Die Grundidee besteht darin, eine große Anzahl von Switches mit geringer Leistung zu verwenden, um ein umfangreiches unblockiertes Netzwerk aufzubauen. Dieses Design stellt sicher, dass es für jedes Kommunikationsmuster Pfade gibt, die eine Kommunikationsbandbreite ermöglichen, die der Bandbreite der Netzwerkkarten (NICs) entspricht, und dass alle Switches innerhalb der Architektur identisch sind. Die Fat-Tree-Netzwerkarchitektur findet breite Anwendung in Rechenzentren mit hohen Netzwerkanforderungen, insbesondere in Hochleistungs-Rechenzentren und KI-Rechenzentren.

Im DGX A100 SuperPOD KI-Rechenzentrumssystem von NVIDIA beispielsweise bestehen alle dreistufigen Switches aus NVIDIA Quantum QM8790-Switches mit 40 Ports. Die Switches der ersten Schicht sind mit 1120 Mellanox HDR 200G InfiniBand NICs verbunden. In diesem Setup sind die Downlink-Ports der Second-Tier-Switches mit den First-Tier-Switches verbunden, während ihre Uplink-Ports mit den Third-Tier-Switches verbunden sind. Die Switches der dritten Schicht verfügen ausschließlich über Downlink-Ports und sind mit den Switches der zweiten Schicht verbunden.

Darüber hinaus verfügt die Speicherseite des Systems über eine eigene Netzwerkarchitektur, die von der Rechenseite getrennt ist. Diese Trennung erfordert eine bestimmte Anzahl von Switches und optischen Transceivern. Im Vergleich zu konventionellen Rechenzentren ist die Anzahl der Switches und optischen Transceiver in KI-Rechenzentren daher erheblich höher.

Optische 800G-Transceiver spielen eine entscheidende Rolle

Optische 800G-Transceiver spielen bei dieser Umstellung eine entscheidende Rolle. Ein einziger optischer 800G-Transceiver mit optischen Ports kann zwei optische 400G-Transceiver ersetzen. Außerdem können bei elektrischen Ports 8 SerDes-Kanäle integriert werden, die mit den 8 100G-Kanälen im optischen Port übereinstimmen. Dieses Design führt zu einer verbesserten Kanaldichte in Switches bei gleichzeitiger deutlicher Reduzierung der physischen Größe.

Die optische Transceiver-Rate wird von den Netzwerkkarten beeinflusst und die Geschwindigkeit der Netzwerkkarte wird durch die PCIe-Kanalgeschwindigkeit eingeschränkt. Bei den A100 DGX-Servern von NVIDIA erfolgen die internen Verbindungen über NVLink3 mit einer unidirektionalen Bandbreite von 300 GB/s. Die A100-GPUs sind jedoch über 16 PCIe 4.0-Kanäle mit ConnectX-6-Netzwerkkarten verbunden, was eine Gesamtbandbreite von etwa 200 G ergibt. Folglich ist ein optischer 200G-Transceiver oder ein DAC-Kabel erforderlich, um die Bandbreite der Netzwerkkarte von 200G zu erreichen.

Bei den H100 DGX-Servern verwenden die internen Verbindungen NVLink4 mit einer unidirektionalen Bandbreite von 450 GB/s. Die H100-GPUs sind über 16 PCIe 5.0-Kanäle mit ConnectX-7-Netzwerkkarten verbunden, was zu einer Gesamtbandbreite von etwa 400 G für eine einzelne Netzwerkkarte führt. Die Geschwindigkeit der optischen Transceiver wird von der PCIe-Bandbreite zwischen der Netzwerkkarte und der GPU beeinflusst.

Wenn die interne PCIe-Kanalgeschwindigkeit in A100- und H100-DGX-Servern 800G (PCIe 6.0) erreichen würde, wäre es möglich, Netzwerkkarten mit einer 800G-Bandbreite einzusetzen und 800G optische Transceiver zu verwenden. Dieser Fortschritt hat das Potenzial, die Berechnungseffizienz des Systems erheblich zu steigern.

Entwicklung der PCIe-Kanal-Geschwindigkeit

2024: Das Jahr der optischen 800G-Transceiver

Das Jahr 2024 wird für den Markt für optische Transceiver ein wichtiges Jahr, in dem 800G-Lösungen im Mittelpunkt stehen werden. Ab 2019, dem Zeitpunkt für den Übergang zu optischen 100G-Transceivern, bietet der Markt zwei Upgrade-Möglichkeiten: 200G und 400G. Die kommende Generation von optischen Hochgeschwindigkeits-Transceivern auf dem Markt ist jedoch ausschließlich auf optische 800G-Transceiver ausgerichtet. In Kombination mit der stark zunehmenden Rechenleistung und dem durch KI- und GC-Netzwerke (Generalized Convolutional) angetriebenen Wettbewerb wird erwartet, dass große Cloud-Anbieter und Technologieriesen in Nordamerika im Jahr 2024 in erheblichem Umfang optische 800G-Transceiver anschaffen werden.

2024: Das Jahr der optischen 800G-Transceiver

Inmitten dieser transformativen Landschaft wird ein zuverlässiger und innovativer Partner entscheidend. Als zuverlässiger Anbieter von Netzwerklösungen bietet FS ein komplettes 800G-Portfolio, das für extrem große Cloud-Rechenzentren weltweit konzipiert ist. Im Jahr 2023 haben wir eine neue Serie von 800G NDR InfiniBand-Lösungen vorgestellt. Unsere Produktpalette umfasst sowohl optische Transceiver des Typs 800G OSFP als auch des Typs 800G QSFP-DD. Außerdem erweitert FS aktuell seine Produktlinie um auch 800G AOCs und DACs anbieten zu können. Dies trägt dazu bei, unsere Unterstützung für Kunden aus verschiedenen Branchen zu erweitern und eine kontinuierliche Versorgung mit erstklassigen und zuverlässigen optischen Netzwerkprodukten und -lösungen zu gewährleisten.

Zusammenfassend lässt sich sagen, dass das Zusammentreffen von KI-Fortschritten und dem Markt für optische Transceiver eine neue Ära der schnellen und effizienten Datenübertragung einläutet. Der transformative Einfluss der KI auf Netzwerke in Rechenzentren unterstreicht die zentrale Rolle optischer Transceiver. Mit Blick auf das Jahr 2024, dem Jahr der optischen 800G-Transceiver, können sich Unternehmen stets auf FS verlassen, wenn es darum geht, die Komplexität der KI-Ära zu bewältigen und stabile Hochleistungs-Netzwerke aufzubauen, die den Weg für eine Zukunft der unbegrenzten Möglichkeiten ebnen.

Das könnte Sie auch interessieren

Kenntnisse
Kenntnisse
See profile for Jason.
Jason
Die Vorteile und Nachteile der Glasfaserkabel
07. Aug 2020
85.7k
Kenntnisse
Kenntnisse
See profile for Sheldon.
Sheldon
TCPIP vs. OSI: Was ist der Unterschied?
06. Jul 2022
72.6k
Kenntnisse
See profile for Sheldon.
Sheldon
Das ABC von PON: OLT, ONU, ONT und ODN
19. Aug 2020
27.3k
Kenntnisse
Kenntnisse
See profile for Sheldon.
Sheldon
Grundlagen von optischen Verteilern (ODF)
02. Apr 2019
4.0k
Kenntnisse
See profile for Sheldon.
Sheldon
LACP vs. PAGP: Was ist der Unterschied?
06. Jun 2022
6.5k
Kenntnisse
See profile for Vincent.
Vincent
Einführung zu BiDi-Transceivern
26. Jun 2020
9.8k
Kenntnisse
See profile for Moris.
Moris
Simplex- vs. Duplex-Glasfaserkabel
10. Jun 2021
39.3k