SuperNIC: Acceleratore di Rete per AI

Inviato il 02 Feb 2024 by

 74

Con l'aumento della complessità e della scala dell'AI, le soluzioni di rete tradizionali tendono a non riuscire a soddisfare i requisiti ad alta intensità di dati di questi sistemi avanzati. Per affrontare i problemi dei carichi di lavoro AI, è stato creato SuperNIC. In questo articolo analizzeremo le capacità di trasformazione di SuperNIC, esplorando il modo in cui rivoluziona le prestazioni della rete e apre nuove frontiere nell'innovazione guidata dall'AI.

Che cosa è un SuperNIC?

SuperNIC rappresenta una categoria emergente di acceleratori di rete meticolosamente realizzati per migliorare le prestazioni dei carichi di lavoro AI iper-scala all'interno di ambienti cloud basati su Ethernet. Offre una connettività di rete impareggiabile, studiata su misura per la comunicazione GPU-GPU, raggiungendo velocità fino a 400Gb/s grazie all'utilizzo della tecnologia RDMA (remote direct memory access) over converged Ethernet (RoCE).

SuperNIC garantisce l'esecuzione efficiente e rapida dei carichi di lavoro AI, affermandoli come elementi fondamentali per il futuro dell'AI computing. Questa forza deriva dalle caratteristiche uniche di SuperNIC:

Sfruttando i dati di telemetria in tempo reale e gli algoritmi network-aware, viene implementato un controllo avanzato della congestione per gestire e prevenire efficacemente la congestione all'interno delle reti di AI.
Il riordino dei pacchetti ad alta velocità garantisce la ricezione e l'elaborazione dei pacchetti di dati nell'ordine di trasmissione originale, preservando l'integrità sequenziale del flusso di dati.
Caratterizzata da un design a basso profilo ed efficiente dal punto di vista energetico, SuperNIC è in grado di gestire i carichi di lavoro AI con budget energetici limitati.
La possibilità di programmare l'elaborazione sul percorso di input/output (I/O) consente la personalizzazione e l'estensibilità dell'infrastruttura di rete nei data center cloud dell'AI.
Ottimizzazione completa dell'AI sull'intero stack, che comprende l'elaborazione, la rete, lo storage, il software di sistema, le librerie di comunicazione e i framework applicativi.

AI Promuove lo Sviluppo di SuperNIC

Il successo dell'intelligenza artificiale è strettamente legato al calcolo accelerato dalle GPU, essenziale per l'elaborazione di vasti set di dati, l'addestramento di modelli di AI di grandi dimensioni e la facilitazione dell'inferenza in tempo reale. Se da un lato questa maggiore potenza di calcolo ha introdotto nuove possibilità, dall'altro ha posto delle sfide alle reti convenzionali.

La rete tradizionale, la tecnologia di base che supporta l'infrastruttura Internet, è stata inizialmente sviluppata per fornire un'ampia compatibilità e collegare applicazioni non strettamente accoppiate. Il suo design non prevedeva le rigorose richieste computazionali poste dai carichi di lavoro contemporanei di AI, caratterizzati da elaborazioni parallele strettamente accoppiate, trasferimenti rapidi di dati e modelli di comunicazione distinti. Le schede di interfaccia di rete (NIC) tradizionali sono state progettate per l'elaborazione generica, la trasmissione universale dei dati e l'interoperabilità, senza le caratteristiche e le capacità necessarie per un trasferimento efficiente dei dati, una bassa latenza e le prestazioni deterministiche fondamentali per le attività di AI. In risposta alle esigenze degli attuali carichi di lavoro dell'IA, sono nate le SuperNIC.

La SuperNIC è più Adatta agli Ambienti di Elaborazione AI rispetto alla DPU

Le unità di elaborazione dati (DPU) offrono molte funzionalità avanzate, con un throughput elevato, connettività di rete a bassa latenza e altro ancora. Dall'introduzione nel 2020, le DPU hanno guadagnato popolarità nel cloud computing, soprattutto grazie alla loro capacità di scaricare, accelerare e isolare l'elaborazione dell'infrastruttura del centro dati. Sebbene le DPU e le SuperNIC abbiano capacità di condivisione, le SuperNIC sono progettate specificamente per accelerare le reti AI. Di seguito sono riportati i diversi vantaggi principali:

Il rapporto 1:1 tra GPU e SuperNIC in un sistema può migliorare notevolmente l'efficienza del carico di lavoro dell'AI, con conseguente aumento della produttività e migliori risultati per le aziende.
Le SuperNIC offrono 400 Gb/s di capacità di rete per GPU, superando le prestazioni delle DPU per i flussi di comunicazione di formazione e inferenza dell'AI distribuita.
Per accelerare il networking per l'AI cloud computing, le SuperNIC utilizzano meno potenza di calcolo rispetto alle DPU, che richiedono una quantità significativa di risorse di calcolo per scaricare le applicazioni dalla CPU host.
La riduzione dei requisiti di calcolo si traduce anche in un minor consumo energetico, estremamente utile per i sistemi multi-SuperNIC.
Le funzionalità di rete dedicate all'AI di SuperNIC includono l'instradamento adattivo, la gestione dei pacchetti fuori ordine e il controllo ottimizzato della congestione, tutti elementi che consentono di accelerare gli ambienti cloud Ethernet AI.

	BlueField-3 DPU	BlueField-3 SuperNIC
Missione	Processore dell'infrastruttura cloud Offload, accelerare e isolare l'infrastruttura del data center Ottimizzato per N-S in sistemi di classe GPU	Collegamento in rete accelerato per Al computing La migliore rete RoCE Ottimizzato per E-W in sistemi di classe GPU
Capacità Condivise	Accelerazione di rete VPC Accelerazione della crittografia di rete Pipeline di rete programmabile Tempismo di precisione Sicurezza della piattaforma
Capacità Uniche	Potente calcolo Gestione sicura e zero-trust Accelerazione della memorizzazione dei dati Fornitura di infrastrutture elastiche 1-2 DPU per sistema	Potente rete Set di funzionalità di rete Al Ottimizzazione NVIDIA Al full-stack Efficienza energetica, design a basso profilo Fino a 8 SuperNIC per sistema

Conclusione

Il SuperNIC è una sorta di acceleratore di rete per i data center AI che fornisce una connettività affidabile e fluida tra i server GPU, creando un ambiente coeso per l'esecuzione di carichi di lavoro AI avanzati e contribuendo al continuo progresso dell'elaborazione AI.