Una Panoramica di NVIDIA NVLink

Inviato il 29 Gen 2024 by

 430

NVIDIA NVLink è emersa come una tecnologia cruciale nei campi dell'elaborazione ad alte prestazioni (HPC) e dell'intelligenza artificiale (AI). Questo articolo approfondisce le complessità di NVLink, e scopre i chip NVSwitch, i server NVLink e gli switch NVLink, facendo luce sulla sua importanza nel panorama in continua evoluzione del computing avanzato.

Che Cos'è NVIDIA NVLink?

NVLink è un protocollo che risolve i limiti di comunicazione tra le GPU all'interno di un server. A differenza degli switch PCIe tradizionali, che hanno una larghezza di banda limitata, NVLink consente l'interconnessione diretta ad alta velocità tra le GPU all'interno del server. La quarta generazione di NVLink offre una larghezza di banda significativamente superiore, pari a 12 Gbps per corsia, rispetto alle corsie PCIe Gen5, tre volte più veloci.

NVLink

NVLink mira a offrire una rete punto-punto snella e ad alta velocità per l'interconnessione diretta delle GPU, riducendo al minimo l'overhead rispetto alle reti tradizionali. Fornendo l'accelerazione CUDA su diversi livelli, NVLink riduce l'overhead della rete legato alle comunicazioni. NVLink si è evoluto insieme all'architettura delle GPU, passando da NVLink1 per P100 a NVLink4 per H100, come illustrato nella figurae. Le principali differenze tra NVLink 1.0, NVLink 2.0, NVLink 3.0 e NVLink 4.0 riguardano il metodo di connessione, la larghezza di banda e le prestazioni.

NVSwitch Chip

Il chip NVSwitch è un chip fisico simile a uno switch ASIC che collega più GPU con interfacce NVLink ad alta velocità, migliorando la comunicazione e la larghezza di banda all'interno di un server. È stata proposta la terza generazione di NVIDIA NVSwitch, in grado di interconnettere ogni coppia di GPU a una velocità di 900 GB/s.

NVLink`

L'ultimo chip NVSwitch3, con 64 porte NVLink4, offre un totale di 12,8 Tbps di larghezza di banda unidirezionale o 3,2 TB/s di larghezza di banda bidirezionale. Ciò che distingue il chip NVSwitch3 è l'integrazione della funzione SHARP, che aggrega e aggiorna i risultati di calcolo su più unità GPU durante tutte le operazioni ridotte, riducendo i pacchetti di rete e migliorando le prestazioni di calcolo.

NVLink

NVLink Server

I server NVLink incorporano le tecnologie NVLink e NVSwitch per collegare le GPU, tipicamente presenti nei server della serie DGX di NVIDIA o nei server OEM HGX con architetture simili. Questi server utilizzano la tecnologia NVLink, offrendo un'eccezionale interconnettività GPU, scalabilità e funzionalità HPC c . Nel 2022, NVIDIA ha annunciato il sistema NVIDIA ® DGX ™ di quarta generazione, la prima piattaforma AI al mondo costruita con il nuovo server NVIDIA DGX H100.

NVLink

Di conseguenza, i server NVLink sono diventati indispensabili in settori cruciali come il calcolo scientifico, l'IA, l'elaborazione dei big data e i data center. Fornendo una robusta potenza di calcolo e un'efficiente elaborazione dei dati, i server NVLink non solo soddisfano i requisiti esigenti di questi campi, ma guidano anche i progressi e promuovono le innovazioni al loro interno.

NVLink

Switch NVLink

Nel 2022, NVIDIA ha eliminato il chip NVSwitch e lo ha trasformato in uno switch chiamato NVLink Switch, che collega i dispositivi GPU tra gli host. Adotta un design di dimensioni 1U con 32 porte OSFP; ogni OSFP comprende 8 corsie PAM4 da 112G e ogni switch ha 2 chip NVSwitch3 integrati.

NVLink

Rete NVLink

Lo switch fisico NVSwitch collega più server GPU NVLink in una grande rete Fabric, che è la rete NVLink, risolvendo problemi di larghezza di banda di comunicazione ad alta velocità e di efficienza tra le GPU. Ogni server ha il proprio spazio di indirizzi indipendente, fornendo </ span> trasmissione dati, isolamento e protezione di sicurezza per le GPU nella rete NVLink. Quando il sistema si avvia, la rete NVLink stabilisce automaticamente una connessione tramite l'API software e può cambiare l'indirizzo durante il funzionamento.

NVLink

La figura confronta le reti NVLink con le reti Ethernet tradizionali, dimostrando la creazione di una rete NVLink indipendente da Ethernet IP e dedicata al servizio GPU.

Concetto	Esempio Tradizionale	Rete NVLink
Livello Fisico	Supporti elettrici/ottici 400G	Personalizzato-FW OSFP
Livello di Collegamento Dati	Ethernet	HW e FW personalizzati su chip NVLink
Livello di Rete	IP	Nuovi Protocolli di Indirizzamento e Gestione della Rete NVLink
Strato di Trasporto	TCP	HW e FW personalizzati su chip NVLink
Livello di Sessione	Prese	SHARP groupsCUDA esportazione di indirizzi di rete di strutture dati
Livello di Presentazione	TSL/SSL	Astrazioni della libreria (ad esempio, NCCL, NVSHMEM)
Livello di Applicazione	HTTP/FTP	Al Framework o App Utente
NIC	PCIe NIC (card or chip)	Funzioni Integrate in GPU e NVSwitch
Offload RDMA	Motore Fuori Carico NIC	Motore di Copia Interno alla GPU
Collettivi Offload	Motore NIC/Switch Off-Load	Motori SHARP Interni a NVSwitch
Off-Load di Sicurezza	Caratteristiche di Sicurezza NIC	Crittografia Interna alla GPU e Firewall "TLB"
Controllo dei Media	Adattamento del Cavo NIC	Controllori di Cavi OSFP Interni a NVSwitch
Tabella: Concetti di rete tradizionali mappati alle loro controparti con il Sistema NVLink Switch

Rete InfiniBand VS Rete NVLink

InfiniBand Network e NVLink Network sono due diverse tecnologie di rete utilizzate nelle applicazioni di calcolo e data center ad alte prestazioni. Hanno le seguenti differenze:

Architettura e Design </ strong>: InfiniBand Network è una tecnologia di rete a standard aperto che utilizza connessioni seriali multicanale ad alta velocità, supportando la comunicazione punto-punto e multicast. NVLink Network è una tecnologia proprietaria di NVIDIA, progettata per connessioni dirette ad alta velocità tra GPU.

Applicazione: InfiniBand Network è ampiamente utilizzato nei cluster HPC e nei data center su larga scala. NVLink Network è utilizzato principalmente nei cluster GPU su larga scala, HPC, AI e altri campi.

Larghezza di Banda e Latenza: InfiniBand Network offre comunicazioni ad alta larghezza di banda e bassa latenza, fornendo un throughput più elevato e ritardi di trasmissione più brevi. NVLink Network offre una maggiore larghezza di banda e una minore latenza tra le GPU per supportare lo scambio rapido di dati e il calcolo collaborativo. Di seguito è riportato il confronto della larghezza di banda tra l'H100 che utilizza la rete NVLink e l'A100 che utilizza la rete IB.

NVLink

Controlla anche-Conoscere InfiniBand.

Conclusione

NVIDIA NVLink è una tecnologia rivoluzionaria che ha rivoluzionato i campi dell'HPC e dell'AI. La sua capacità di potenziare la comunicazione tra GPU, migliorare le prestazioni e consentire l'elaborazione in parallelo senza soluzione di continuità l'ha resa un componente indispensabile in numerose applicazioni HPC e AI. Con la continua evoluzione del panorama dell'informatica avanzata, l'importanza e l'impatto di NVLink sono destinati ad espandersi, promuovendo l'innovazione e spingendo i confini del possibile.