Soluzioni di rete avanzate per l'intelligenza artificiale

Inviato il 22 Dic 2023 by

 174

Negli ultimi anni, i modelli di intelligenza artificiale (AI) su larga scala hanno suscitato una notevole attenzione nella comunità dell'AI, grazie alle loro notevoli capacità di comprensione del linguaggio naturale, di elaborazione crossmediale e al potenziale di avanzamento verso l'AI generale. La scala dei parametri dei grandi modelli leader del settore ha raggiunto l'ordine dei trilioni o addirittura delle decine di trilioni.

Nel 2023, un notevole prodotto di intelligenza artificiale chiamato ChatGPT ha guadagnato popolarità, mostrando la capacità di impegnarsi in conversazioni, generare codici, rispondere a domande e scrivere romanzi. La sua tecnologia di base si fonda sul modello di grandi dimensioni GPT-3.5, finemente sintonizzato, che vanta 175 miliardi di parametri. I rapporti indicano che l'addestramento di GPT-3.5 ha utilizzato un sistema di supercalcolo dedicato all'intelligenza artificiale costruito da Microsoft. Questo sistema comprendeva un cluster di rete ad alte prestazioni che ospitava 10.000 GPU V100, con un consumo cumulativo di potenza di calcolo di circa 3640 PF-giorni. Per intenderci, se il calcolo venisse effettuato a una velocità di 10.000 miliardi di calcoli al secondo, richiederebbe 3640 giorni per essere completato.

Elevare le reti per un'AI di eccellenza

Nell'era dell'intelligenza artificiale, la domanda di reti ha raggiunto livelli senza precedenti, richiedendo prestazioni e affidabilità senza precedenti. Con il continuo avanzamento delle tecnologie di intelligenza artificiale, con modelli su larga scala che diventano standard, l'infrastruttura di rete deve evolversi per soddisfare queste richieste e fornire livelli eccezionali di connettività e reattività. La ricerca di un'esperienza di rete ottimale è fondamentale, dato il suo impatto diretto sull'esecuzione senza interruzioni degli algoritmi di AI, sull'efficienza del trasferimento dei dati e sul processo decisionale in tempo reale. Dal trasferimento di dati ad alta velocità alla connettività a bassissima latenza, la ricerca di una rete impeccabile è la pietra angolare del successo dell'AI. Solo attraverso lo sfruttamento di tecnologie all'avanguardia e il continuo superamento dei limiti delle capacità di rete è possibile sbloccare completamente il potenziale dell'AI nell'era digitale.

Colli di bottiglia di rete in grandi cluster di GPU

Secondo la legge di Amdahl, l'efficienza di un sistema parallelo è determinata dalle prestazioni della comunicazione seriale. All'aumentare del numero di nodi in un sistema parallelo, aumenta anche la proporzione di comunicazione, intensificando il suo impatto sulle prestazioni complessive del sistema. Nelle attività di addestramento di modelli estesi che coinvolgono la potenza di calcolo di centinaia o addirittura migliaia di GPU, la moltitudine di nodi server e il requisito della comunicazione inter-server stabiliscono che la larghezza di banda della rete è un collo di bottiglia per i sistemi cluster di GPU. In particolare, l'uso prevalente di Mixture-of-Experts (MoE) in architetture di modelli di grandi dimensioni, caratterizzate da caratteristiche di gate rade e da uno schema di comunicazione All-to-All, impone requisiti eccezionalmente elevati alle prestazioni di rete con l'aumentare delle dimensioni del cluster. Le recenti strategie di ottimizzazione del settore per la comunicazione Tutto-Tutto sono state incentrate sulla massimizzazione dell'utilizzo dell'elevata larghezza di banda della rete per ridurre al minimo il tempo di comunicazione e migliorare la velocità di addestramento dei modelli MoE.

Advanced Networking Solutions for Artificial Intelligence

Sfide di stabilità in grandi cluster di GPU

Quando un cluster di GPU raggiunge una scala specifica, garantire la stabilità del sistema di cluster diventa un'ulteriore sfida da affrontare, oltre all'ottimizzazione delle prestazioni. L'affidabilità della rete svolge un ruolo fondamentale nel determinare la stabilità computazionale dell'intero cluster. Ciò è dovuto ai seguenti motivi:

Guasti in reti di grandi dimensioni: A differenza di un singolo punto di guasto della CPU, che ha un impatto su una piccola porzione della potenza di calcolo del cluster, i guasti di rete possono interrompere la connettività di decine o addirittura più GPU. Una rete stabile è indispensabile per preservare l'integrità della potenza di calcolo del sistema.
Impatto significativo delle fluttuazioni delle prestazioni di rete: A differenza di una singola GPU o di un server a basse prestazioni, relativamente facile da isolare, la rete è una risorsa condivisa dall'intero cluster. Le fluttuazioni delle prestazioni della rete possono avere un impatto sostanziale sull'utilizzo di tutte le risorse di calcolo.

Affrontare queste considerazioni è essenziale per mantenere la robustezza e le prestazioni costanti dei cluster di GPU su larga scala.

Advanced Networking Solutions for Artificial Intelligence

Potenziamento delle reti di formazione AI ad alta prestazione

Nel campo dell'addestramento di modelli su larga scala, dove le iterazioni di calcolo e la sincronizzazione del gradiente richiedono volumi di comunicazione enormi, non è raro che si raggiungano centinaia di gigabyte per una singola iterazione. Inoltre, l'introduzione di modalità parallele e di requisiti di comunicazione da parte dei framework di accelerazione rende le reti tradizionali a bassa velocità inefficienti per supportare il calcolo robusto dei cluster di GPU. Per sfruttare appieno le potenti capacità di calcolo delle GPU, è essenziale un'infrastruttura di rete ad alte prestazioni, che fornisca nodi di calcolo a banda super larga dotati di elevata larghezza di banda, scalabilità e capacità di comunicazione a bassa latenza per affrontare le sfide di comunicazione inerenti alla formazione AI.

La rete NVIDIA InfiniBand (IB) si distingue per la capacità di fornire a ogni nodo di calcolo una banda passante di comunicazione ultraelevata, fino a 1,6 Tbps. Ciò rappresenta un miglioramento di oltre dieci volte rispetto alle reti convenzionali. Le caratteristiche principali della rete NVIDIA InfiniBand includono:

Topologia fat-tree non-bloccante: L'impiego di una topologia di rete non bloccante garantisce una trasmissione efficiente all'interno del cluster, supportando una scala di cluster singola fino a 2K GPU e fornendo prestazioni del cluster a livello di superEFLOPS (FP16).
Scalabilità flessibile della rete: La rete consente un'espansione flessibile, supportando un massimo di 32K cluster di GPU Computing. Questa flessibilità consente di regolare le dimensioni dei cluster in base alla domanda, consentendo la formazione di modelli su larga scala a varie scale.
Accesso ad alta larghezza di banda: Il piano di rete del nodo di elaborazione è dotato di otto schede di rete ROCE, che consentono di accedere a una larghezza di banda ultraelevata di 1,6 Tbps. Questo design ad alta larghezza di banda facilita la trasmissione rapida dei dati tra i nodi di calcolo, riducendo al minimo la latenza di comunicazione.

L'utilizzo della rete NVIDIA InfiniBand consente di costruire nodi di calcolo con una larghezza di banda ultraelevata, offrendo solide prestazioni di comunicazione per supportare la formazione dell'intelligenza artificiale. Inoltre, FS offre switch InfiniBand di altissimo livello, schede di rete InfiniBand, server GPU, e prodotti ad alta velocità come AOC e DAC HDR Infiniband. Questi prodotti sono in linea con i requisiti di bassa latenza, elevata larghezza di banda e affidabilità dei cluster di server di rete AI ad alte prestazioni.

Conclusioni

In prospettiva, con il continuo avanzamento della potenza di calcolo delle GPU e la continua evoluzione dell'addestramento di modelli di AI su larga scala, si pone in primo piano il compito imperativo di costruire un'infrastruttura di rete ad alte prestazioni. L'architettura delle reti di cluster di GPU deve essere sottoposta a continue iterazioni e miglioramenti per garantire l'utilizzo e la disponibilità ottimali della potenza di calcolo del sistema. Solo grazie all'innovazione e agli aggiornamenti continui è possibile soddisfare le crescenti esigenze delle reti e offrire prestazioni e affidabilità senza precedenti.

Nell'era dell'AI, le reti caratterizzate da elevata larghezza di banda, bassa latenza e scalabilità sono destinate a diventare lo standard. Questi attributi sono essenziali per fornire un solido supporto all'addestramento di modelli su larga scala e per facilitare il processo decisionale in tempo reale. In qualità di fornitore leader di soluzioni di rete ottiche, il nostro impegno è costante nel fornire soluzioni di connettività di rete di alta qualità e ad alte prestazioni su misura per i cluster di server AI. Il nostro impegno si estende all'innovazione continua, alla costruzione di infrastrutture di rete affidabili ad alte prestazioni e alla fornitura di basi stabili e affidabili per lo sviluppo e l'applicazione della tecnologia AI.

Affrontiamo insieme le sfide dell'era dell'intelligenza artificiale, lavorando insieme per scrivere un nuovo capitolo di un futuro smart.