Progressi nella Tecnologia DPU: Potenziamento delle Innovazioni del Futuro

Inviato il 19 Gen 2024 by

 124

Con l'evoluzione del cloud computing e delle tecnologie di virtualizzazione, anche le schede di rete hanno subito quattro fasi per quanto riguarda la funzionalità e la struttura hardware: NIC, SmartNIC, FPGA-Based DPU e DPU SoC NIC. In questo articolo spiegheremo i diversi tipi di schede di rete e processori utilizzati nei data center, concentrandoci sul loro hardware, sulle capacità di programmabilità, sullo sviluppo e sulle applicazioni.

Evoluzione e Applicazione dei Controllori di Interfaccia di Rete (NIC)

La tradizionale scheda di rete di base, nota anche come NIC o adattatore di rete, svolge un ruolo fondamentale nelle reti di computer. La sua funzione principale è quella di convertire i dati per una trasmissione efficiente tra i dispositivi di rete. Nel corso del tempo, i progressi hanno ampliato le sue capacità. Oggi incorpora funzionalità aggiuntive e possiede capacità di offloading hardware di base, come CRC Check, TSO/UF0, LSO/LR0 e supporto VLAN, tra le altre. Supporta inoltre SR-IOV per la virtualizzazione e QoS per migliorare le prestazioni della rete. Per quanto riguarda la larghezza di banda dell'interfaccia di rete, è passata da velocità di 100M e 1000M a velocità superiori di 10G, 25G e persino 100G.

Network Interface Controllers (NICs)

Nelle reti di virtualizzazione del cloud computing, la tradizionale scheda di rete di base offre tre metodi principali per fornire accesso alla rete alle macchine virtuali.

1. Tramite lo stack di protocollo del kernel del sistema operativo, la scheda di rete inoltra il traffico in entrata alle macchine virtuali.

2. Il driver DPDK in modalità utente bypassa lo stack di protocollo del kernel, copiando direttamente i pacchetti di dati nella memoria della macchina virtuale per migliorare le prestazioni.

3. La tecnologia SR-IOV virtualizza la scheda di rete fisica in più funzioni virtuali (VF) assegnate direttamente alle macchine virtuali.

Con l'aumento della complessità della rete con protocolli tunnel come VxLAN e tecnologie di commutazione virtuale, le risorse della CPU diventano sempre più esigenti. Le SmartNIC affrontano questa sfida scaricando le attività di elaborazione della rete dalla CPU, migliorando le prestazioni complessive della rete.

Evoluzione e Applicazione di SmartNIC

Le SmartNIC offrono più delle semplici funzionalità di trasmissione di rete presenti nelle tradizionali schede di rete di base. Incorporano funzionalità di offloading hardware del piano dati, come l'offloading hardware di OVS/vRouter, utilizzando FPGA o processori integrati con FPGA e core del processore. Queste SmartNIC migliorano la velocità di inoltro delle reti di cloud computing e alleggeriscono l'onere delle risorse di calcolo sulla CPU host.

A differenza delle schede di rete tradizionali, le SmartNIC non includono una CPU generica. Si affidano invece alla CPU dell'host per gestire il piano di controllo. L'obiettivo principale dell'accelerazione dell'offloading delle SmartNIC è il piano dati, che comprende attività come l'offloading del fast-path per gli switch virtuali come 0VS/vRouter, l'offloading della rete RDMA, l'offloading dello storage NVMe-oF e l'offloading della sicurezza del piano dati IPsec/TLS.

SmartNIC

Tuttavia, nonostante questi progressi, mentre la velocità della rete continua ad aumentare nelle applicazioni di cloud computing, la CPU host dedica ancora notevoli risorse alla classificazione, al tracciamento e al controllo del traffico. Il raggiungimento del "consumo zero" della CPU host è diventato la prossima direzione di ricerca per i fornitori di cloud, con l'obiettivo di ridurre al minimo il coinvolgimento della CPU host in questi compiti.

Evoluzione e Applicazione della DPU basata su FPGA

La DPU basata su FPGA è una scheda di rete intelligente che può scaricare i dati e avere funzioni di controllo del piano. È inoltre parzialmente programmabile sia per il piano di controllo che per quello dei dati. Per quanto riguarda l'hardware, comprende un processore CPU general-purpose basato su FPGA, come la CPU Intel.

Rispetto alle SmartNIC, le DPU basate su FPGA migliorano l'architettura hardware incorporando un'unità di elaborazione CPU general-purpose, dando vita a un'architettura FPGA+CPU. Questa configurazione facilita l'accelerazione e l'offloading di vari componenti dell'infrastruttura, tra cui rete, storage, sicurezza e gestione. Attualmente, la forma predominante di DPU è la configurazione FPGA+CPU. Le DPU basate su questa architettura offrono un'eccellente programmabilità software e hardware.

FPGA-Based DPU

Durante le prime fasi di sviluppo delle DPU, la maggior parte dei produttori ha optato per questo approccio. Offriva tempi di sviluppo più brevi, iterazioni rapide e facilitava la rapida personalizzazione delle funzioni. Ciò ha permesso ai produttori di DPU di introdurre rapidamente i prodotti e di cogliere le opportunità del mercato. Tuttavia, con la transizione della larghezza di banda di rete da 25G a 100G, l'architettura FPGA+CPU DPU ha incontrato limitazioni dovute ai processi dei chip e alle strutture FPGA. Queste limitazioni hanno reso difficile controllare efficacemente l'area del chip e il consumo di energia, pur perseguendo un throughput più elevato. Di conseguenza, lo sviluppo continuo di questa architettura DPU è stato ostacolato.

Evoluzione e Applicazione del SoC NIC DPU

Il SoC DPU, basato su ASIC (Application-Specific Integrated Circuit), combina le prestazioni degli acceleratori dedicati con la programmabilità dei processori general-purpose. A differenza delle architetture basate su FPGA, i SoC DPU affrontano le sfide in termini di costi, consumi e funzionalità, soprattutto per i server 100G di prossima generazione. Offrono vantaggi in termini di costo, consumo energetico, throughput elevato e capacità di programmazione flessibile. I SoC DPU supportano la gestione delle applicazioni, le macchine virtuali, i container e le applicazioni bare metal.

DPU SoC NIC

La tecnologia DPU sta progredendo e i SoC DPU programmabili general-purpose sono ora fondamentali nella costruzione dei data center dei fornitori di cloud. Consentono una gestione efficiente delle risorse di calcolo e di rete, supportano diversi scenari di cloud computing e ottimizzano l'utilizzo delle risorse del data center. I giganti dei chip e i principali fornitori di servizi cloud hanno effettuato investimenti significativi nella ricerca, nello sviluppo e nell'utilizzo delle DPU, ottenendo un notevole rapporto costo-efficacia grazie alla continua esplorazione e all'implementazione pratica.

DPU in AWS (Amazon Cloud)

AWS (Amazon Web Services), uno dei principali fornitori di servizi di cloud computing, si affida al sistema Nitro DPU come base tecnica fondamentale. Il sistema Nitro DPU scarica in modo efficiente le funzioni di rete, storage, sicurezza e monitoraggio su hardware e software dedicati. Questo consente alle istanze di servizio di accedere a quasi tutte le risorse del server, con una significativa riduzione dei costi e un aumento dei ricavi annuali. Il sistema Nitro DPU è composto da più componenti:

1. Scheda Nitro: Hardware dedicato per rete, archiviazione e controllo per migliorare le prestazioni complessive del sistema.

2. Chip di sicurezza Nitro: Trasferisce le funzioni di virtualizzazione e sicurezza su hardware e software dedicati, riducendo la superficie di attacco e garantendo una piattaforma cloud sicura.

3. Hypervisor Nitro: Un programma leggero di gestione dell'hypervisor che gestisce in modo efficiente l'allocazione di memoria e CPU, fornendo prestazioni paragonabili a quelle del bare metal.

DPU in AWS (Amazon Cloud)

Fornendo funzioni chiave di rete, sicurezza, server e monitoraggio, il sistema Nitro DPU libera le risorse del servizio sottostante per le macchine virtuali dei clienti. Consente ad AWS di offrire più tipi di istanze bare metal e di raggiungere prestazioni di rete fino a 100Gbps per istanze specifiche.

NVIDIA DPU

NVIDIA, un'importante azienda di semiconduttori rinomata per le sue unità di elaborazione grafica (GPU) nell'AI e nell'elaborazione ad alte prestazioni (HPC), ha acquisito Mellanox, un'azienda di chip e dispositivi di rete, nell'Aprile 2020 per $6,9 miliardi. In seguito all'acquisizione, NVIDIA ha introdotto la serie di DPU BlueField.

La DPU NVIDIA BlueField-3, progettata specificamente per l'AI e il computing accelerato, eredita le funzionalità avanzate della DPU BlueField-2. Fornisce una connettività di rete fino a 400G e offre capacità di offloading, accelerazione e isolamento per le funzioni di rete, storage, sicurezza e gestione definite dal software.

Intel IPU

L'IPU (Infrastructure Processing Unit) di Intel è un dispositivo di rete avanzato dotato di acceleratori e connessioni Ethernet temprati. Utilizza core programmabili dedicati strettamente accoppiati per accelerare e gestire le funzioni dell'infrastruttura. L'IPU consente l'offload completo dell'infrastruttura e funge da punto di controllo host per le applicazioni infrastrutturali in esecuzione, fornendo un ulteriore livello di sicurezza. L'offload di tutti i servizi di infrastruttura dal server all'IPU libera le risorse della CPU del server e offre ai fornitori di servizi cloud un punto di controllo indipendente e sicuro.

Intel IPU

La roadmap di Intel comprende i prodotti Oak Springs Canyon e Mount Evans IPU. Oak Springs Canyon è un prodotto IPU basato su FPGA, mentre Mount Evans IPU è un prodotto IPU basato su ASIC. Oak Springs Canyon è dotato di FPGA Intel Agilex e CPU Xeon-D, mentre Mount Evans, progettato congiuntamente da Intel e Google, incorpora un ASIC per l'elaborazione dei pacchetti e 16 core ARM Neoverse N1 per potenti capacità di calcolo.

DPU in Alibaba Cloud

Alibaba Cloud è all'avanguardia nell'esplorazione della tecnologia DPU. Durante l'Alibaba Cloud Summit del 2022, ha presentato il processore per infrastrutture cloud CIPU, sviluppato sull'architettura Shenlong. CIPU eredita le funzionalità e il posizionamento del suo predecessore, la scheda MoC (Micro Server on a Card), che si allinea alla definizione di DPU. La scheda MoC vanta unità di I/O, storage ed elaborazione indipendenti e gestisce attività di virtualizzazione di rete, storage e dispositivi. Le schede MoC hanno attraversato quattro fasi di sviluppo:

- La prima e la seconda generazione di schede MoC hanno affrontato la sfida della virtualizzazione del calcolo con zero overhead, con la virtualizzazione della rete e dello storage implementata nel software.

- La terza generazione di schede MoC ha introdotto funzioni avanzate di inoltro della rete, migliorando in modo significativo le prestazioni della rete.

- La quarta generazione di schede MoC ha ottenuto il completo offloading hardware delle operazioni di rete e di archiviazione e supporta anche la funzionalità RDMA.

La CIPU di Alibaba Cloud, progettata per il sistema Feitian, è fondamentale per la costruzione di una nuova generazione di sistemi completi di architettura di cloud computing software e hardware.

DPU in Volcano Engine

Volcano Engine si dedica al progresso della tecnologia DPU sviluppata in proprio, utilizzando un approccio integrato di virtualizzazione soft e hard per servizi di calcolo ad alte prestazioni elastici e scalabili. Il server elastico bare metal di seconda generazione e il server cloud di terza generazione sono entrambi dotati di DPU sviluppate in proprio. Queste DPU sono state sottoposte a test approfonditi per garantirne le capacità e l'idoneità a varie applicazioni. L'istanza EBM di seconda generazione, lanciata nel 2022, combina la stabilità e la sicurezza delle macchine fisiche con la flessibilità delle macchine virtuali, rappresentando una nuova generazione di server cloud ad alte prestazioni. L'istanza ECS di terza generazione, rilasciata nella prima metà del 2023, integra la più recente architettura DPU di Volcano Engine con il suo switch virtuale proprietario e la tecnologia di virtualizzazione, migliorando in modo significativo le prestazioni di I/O di rete e di storage. Combinando l'architettura DPU, lo switch virtuale e la tecnologia di virtualizzazione sviluppati in proprio, Volcano Engine intende offrire soluzioni di calcolo ad alte prestazioni scalabili ed efficienti, in grado di soddisfare le esigenze in continua evoluzione del cloud computing.