Nell'era dell'Intelligenza Artificiale: Alimentare la Crescita nel Mercato dei Transceiver Ottici

Aggiornato il 27 Dic 2023 by

 137

L'avvento dell'intelligenza artificiale (AI) è stato un catalizzatore per un cambiamento trasformativo in diverse settori. Uno di quelli che sta vivendo uno spostamento paradigmatigo è il mercato dei transceiver ottici. Questo articolo approfondisce l'impatto dell'AI, in particolare l'ondata di AI scatenata da modelli come ChatGPT, nel ridisegnare le reti dei data center e alimentare la crescita dei transceiver ottici ad alte prestazioni, con un focus sull'attesa esplosione dei transceiver ottici da 800G nel 2024.

L'ondata di intelligenza artificiale innescata da ChatGPT

Lo sviluppo e la messa in opera di modelli di intelligenza artificiale come ChatGPT hanno inaugurato una nuova era di possibilità. Questi modelli, alimentati da avanzamenti tecnici di apprendimento profondo, dimostrano la capacità di comprendere e generare testo simile a quello umano. ChatGPT, come rappresentante di questa ondata di intelligenza artificiale, ha mostrato il potenziale per migliorare la comunicazione e semplificare l'elaborazione dei dati. Le sue capacità di elaborazione del linguaggio naturale contribuiscono a interazioni più efficienti tra persone e macchine, rendendolo un prezioso strumento per ottimizzare le operazioni dei data center. Pertanto, l'onda di intelligenza artificiale è diventata una forza trainante dietro la necessità di transceiver ottici più veloci, affidabili e ad alta capacità.

Il funzionamento di ChatGPT richiede robuste risorse di cloud computing per il supporto. Il modello GPT rilasciato da OpenAI nel 2018 aveva 117 milioni di parametri ed è stato addestrato con circa 5 GB di dati pre-addestramento. In contrasto, GPT-3 vanta un sorprendente numero di 175 miliardi di parametri ed è stato addestrato con 45 TB di dati. Durante la sola fase di addestramento del modello, ChatGPT ha consumato circa 3640 PF giorni di potenza computazionale, con costi di addestramento che hanno raggiunto la cifra impressionante di $12 milioni. Il consumo durante la fase di accesso al servizio è ancora maggiore. Si stima che per soddisfare le esigenze di ricerca e accesso degli attuali utenti di ChatGPT, sia necessario un investimento iniziale di circa $3-4 miliardi in infrastrutture di calcolo, specificamente utilizzando server (GPU).

Come l'intelligenza artificiale ridisegna le reti dei data center

L'integrazione dell'intelligenza artificiale nei data center ha ridefinito il panorama della trasmissione dati. I tradizionali data center, progettati per carichi di lavoro di calcolo convenzionali, stanno subendo una metamorfosi per rispondere alle esigenze delle applicazioni basate sull'IA. La differenza chiave risiede nel modo in cui i dati vengono elaborati e trasmessi.

Data center tradizionale vs data center AI

In un data center tradizionale, i dati fluiscono attraverso un'architettura di rete gerarchica, con ogni livello che introduce latenza e potenziali vincoli. Inizialmente, i data center adottavano il tradizionale modello a tre livelli, composto dal livello di accesso, dal livello di aggregazione e dal livello centrale. Il livello di accesso collegava i nodi di calcolo agli switch dei cabinet, il livello di aggregazione facilitava le interconnessioni tra i livelli di accesso, e il livello centrale gestiva le connessioni tra i livelli di aggregazione e le reti esterne.

Tuttavia, con l'aumento rapido del traffico est-ovest all'interno dei data center, i livelli centrale e di aggregazione della tradizionale architettura di rete a tre livelli hanno dovuto affrontare compiti in crescita e requisiti di prestazioni più elevati, con conseguente aumento significativo dei costi dell'apparecchiatura. Di conseguenza, è emersa un'architettura di rete più snodata, chiamata leaf-spine, adattata al traffico est-ovest. In questa architettura rivista, gli switch leaf stabiliscono connessioni dirette con i nodi di calcolo, mentre gli switch spine fungono da core switch, selezionando dinamicamente percorsi multipli attraverso Equal-Cost Multipath (ECMP).

L'architettura di rete leaf-spine offre diversi vantaggi, tra cui un'elevata utilizzazione della larghezza di banda, un'ottima scalabilità, una latenza di rete prevedibile e una sicurezza migliorata. Queste caratteristiche ne fanno un'opzione ampiamente applicabile e vantaggiosa per la distribuzione in vari scenari di data center.

data center architecture

D'altra parte, i data center AI sfruttano l'elaborazione parallela, il calcolo distribuito e interconnessioni ad alta velocità per garantire un flusso dati senza intoppi e una latenza minima. La necessità di un'architettura di rete fat-tree senza blocchi è diventata cruciale a causa del considerevole traffico dati interno. I data center AI di NVIDIA utilizzano un'architettura di rete fat-tree per garantire funzionalità senza blocchi.

L'idea fondamentale alla base di ciò prevede l'utilizzo di un gran numero di switch a bassa potenza per costruire una vasta rete senza blocchi. Questo design garantisce che, per qualsiasi schema di comunicazione, esistano percorsi che consentono alla larghezza di banda di comunicazione di corrispondere alla larghezza di banda delle network schede di interfaccia di rete (NIC), e tutti gli switch all'interno dell'architettura sono identici. L'architettura di rete fat-tree trova ampia applicazione nei data center con esigenze di rete impegnative, in particolare nei centri di calcolo ad alte prestazioni e nei data center AI.

Prendiamo ad esempio il sistema di data center AI DGX A100 SuperPOD di NVIDIA: tutti gli switch a tre livelli sono costituiti da switch NVIDIA Quantum QM8790 a 40 porte. Gli switch del primo livello sono collegati a 1120 schede di interfaccia di rete InfiniBand HDR 200G di Mellanox. In questa configurazione, le porte di downlink degli switch del secondo livello si collegano agli switch del primo livello, mentre le loro porte di uplink si collegano agli switch del terzo livello. Gli switch del terzo livello dispongono esclusivamente di porte di downlink e sono interconnessi con gli switch del secondo livello.

Inoltre, il lato dello storage del sistema utilizza un'architettura di rete distinta, mantenuta separata dal lato del calcolo. Questa segregazione richiede un numero specifico di switch e transceiver ottici.Pertanto, rispetto ai data center convenzionali, il numero di switch e transceiver ottici nei data center AI ha registrato un aumento sostanziale.

I transceiver ottici 800G giocano un ruolo fondamentale

I transceiver ottici 800G svolgono un ruolo cruciale in questa trasformazione. Un singolo transceiver ottico 800G nella porta ottica può sostituire due transceiver ottici 400G. Inoltre, nella porta elettrica, possono essere integrate 8 canali SerDes, in linea con i 8 canali da 100G nella porta ottica. Questo design porta a un'ulteriore densità di canali negli switch, accompagnata da una notevole riduzione delle dimensioni fisiche.

La velocità del trasmettitore ottico è influenzato dalle schede di rete, e la velocità della scheda di rete è limitata dalla velocità del canale PCIe. Nei server A100 DGX di NVIDIA, le connessioni interne avvengono attraverso NVLink3 con una larghezza di banda unidirezionale di 300 GB/s. Tuttavia, le GPU A100 si collegano alle schede di rete ConnectX-6 tramite 16 canali PCIe 4.0, generando una larghezza di banda totale di circa 200G. Di conseguenza, è necessario un transceiver ottico o cavo DAC 200Gper equiparare la larghezza di banda della scheda di rete a 200G.

Nel caso dei server H100 DGX, le connessioni interne utilizzano NVLink4 con una larghezza di banda unidirezionale di 450 GB/s. Le GPU H100 si collegano alle schede di rete ConnectX-7 attraverso 16 canali PCIe 5.0, risultando in una larghezza di banda totale di circa 400G per una singola scheda di rete. Va notato che la velocità del trasmettitore ottico è influenzata dalla larghezza di banda PCIe tra la scheda di rete e la GPU.

Se la velocità del canale PCIe interno nei server A100 e H100 DGX dovesse raggiungere i 800G (PCIe 6.0), diventerebbe possibile implementare schede di rete con una larghezza di banda di 800G e utilizzare transceiver ottici da 800G. Questo avanzamento ha il potenziale per migliorare significativamente l'efficienza computazionale del sistema.

PCIe channel speed evolution

2024 — L'anno dei transceiver ottici 800G

Guardando avanti, il 2024 si preannuncia come un anno significativo per il mercato dei transceiver ottici, con l'attenzione focalizzata sulle soluzioni da 800G. Nel 2019, segnato come il momento della transizione verso i transceiver ottici da 100G, il mercato presentava due percorsi di aggiornamento: 200G e 400G. Tuttavia, la prossima generazione di transceiver ottici ad alta velocità sul mercato è esclusivamente orientata verso i transceiver ottici da 800G. In combinazione con la crescente potenza di calcolo e la concorrenza guidata da reti di intelligenza artificiale e reti GC (Generalized Convolutional), è previsto che i principali fornitori di servizi cloud e giganti della tecnologia in Nord America effettueranno considerevoli acquisizioni di transceiver ottici da 800G nel 2024.

2024 — The Year of 800G Optical Transceivers

In questo paesaggio trasformativo, avere un partner affidabile e innovativo diventa cruciale. FS, in quanto fornitore affidabile di soluzioni di rete, offre una completa gamma di prodotti da 800G progettati per i data center cloud di dimensioni ultra-large in tutto il mondo. Nel 2023, abbiamo presentato una nuova serie di soluzioni InfiniBand 800G NDR. La nostra gamma di prodotti include sia transceiver ottici OSFP 800G che transceiver ottici QSFP-DD 800G. FS estende inoltre la propria linea di prodotti per includere cavi AOC e DAC 800G. Ciò aiuta a ampliare il nostro supporto per i clienti in vari settori, garantendo un'offerta continua di prodotti e soluzioni di rete ottica affidabili e di alta qualità.

In conclusione, la convergenza degli avanzamenti nell'intelligenza artificiale e nel mercato dei transceiver ottici annuncia una nuova era di trasmissione dati ad alta velocità ed efficiente. L'impatto trasformativo dell'IA sulle reti dei data center sottolinea il ruolo cruciale dei transceiver ottici. Mentre ci avviciniamo al 2024, l'anno dei transceiver ottici 800G, le aziende possono sempre fare affidamento su FS per affrontare le complessità dell'era dell'IA e costruire reti resilienti e ad alte prestazioni che aprono la strada a un futuro di possibilità illimitate.