Italia

Comprendere meglio InfiniBand: Calcolo ad alte prestazioni nell'era digitale

Inviato il 22 Dic 2023 by
130

Dall'inizio del XXI secolo, sotto la spinta della crescente popolarità del cloud computing e dei big data, la rapida evoluzione dei data center è diventata sempre più evidente. In questo panorama dinamico, InfiniBand è emersa come una tecnologia fondamentale, svolgendo un ruolo cruciale nel cuore dei data center. In particolare, a partire dal 2023, l'ascesa di grandi modelli di intelligenza artificiale, esemplificati da innovazioni come ChatGPT, ha spinto InfiniBand in una posizione ancora più importante. Questa maggiore attenzione è attribuita al fatto che la rete alla base dei modelli GPT è costruita sulle fondamenta di InfiniBand.

Ma che cos'è esattamente la tecnologia InfiniBand e quali sono le caratteristiche che contribuiscono alla sua ampia adozione? Inoltre, perché il dibattito su "InfiniBand vs. Ethernet" è ancora aperto? Questo articolo si propone di rispondere a ciascuna di queste domande, offrendo preziose informazioni sulle complessità della tecnologia InfiniBand e sulla sua importanza nel panorama in continua evoluzione del calcolo ad alte prestazioni.

infiniband-vs-ethernet

Il percorso di sviluppo della tecnologia InfiniBand

InfiniBand (IB), un robusto protocollo di comunicazione, trova le sue radici intrecciate con l'evoluzione dell'architettura dei computer. Le fondamenta dei moderni computer digitali poggiano sull'architettura di von Neumann, una struttura caratterizzata da componenti essenziali come le CPU, che comprendono l'unità logica aritmetica e l'unità di controllo, la memoria, che comprende la RAM e il disco rigido, e i dispositivi di I/O.

All'inizio degli anni '90, il panorama informatico ha assistito a un'impennata della domanda di supporto di una serie crescente di dispositivi esterni. In risposta a questa esigenza, Intel si è distinta come pioniere introducendo il design del bus PCI (Peripheral Component Interconnect) nell'architettura standard dei PC. Questo passo innovativo ha segnato un momento cruciale nella traiettoria dell'evoluzione dei computer, gettando le basi per la nascita del potente protocollo di comunicazione che oggi conosciamo come InfiniBand.

Peripheral Component Interconnect

Successivamente, Internet ha conosciuto una fase di rapido sviluppo, accompagnata da una fiorente crescita di aziende e utenti online, che a sua volta ha imposto sfide sostanziali alla capacità dei sistemi IT.

In questo periodo, nonostante i notevoli progressi di componenti come CPU, memoria e dischi rigidi, spinti dalla legge di Moore, il bus PCI ha subito un ritardo negli aggiornamenti. Questo ritmo di sviluppo più lento ha limitato in modo significativo le prestazioni di I/O, diventando un collo di bottiglia per l'intero sistema.

In risposta a questo collo di bottiglia, uno sforzo collaborativo guidato da giganti del settore come Intel, Microsoft e SUN ha dato vita allo standard tecnologico "Next Generation I/O (NGIO)". Contemporaneamente, IBM, Compaq e Hewlett-Packard si sono occupati dello sviluppo di "Future I/O (FIO)". In particolare, queste tre entità sono state pioniere nella creazione dello standard PCI-X nel 1998.

In un momento cruciale, il FIO Developers Forum e il NGIO Forum si sono fusi, gettando le basi per la creazione dell'InfiniBand Trade Association. Questo sforzo di collaborazione ha spianato la strada al rilascio ufficiale della versione 1.0 delle specifiche dell'architettura InfiniBand nel 2000. In sostanza, la nascita di InfiniBand mirava a soppiantare il bus PCI. Introducendo il protocollo RDMA, InfiniBand offriva una latenza inferiore, una larghezza di banda superiore e una maggiore affidabilità, consentendo così prestazioni di I/O più potenti.

Nel maggio 1999, un gruppo di ex dipendenti di Intel e Galileo Technology si è riunito per fondare Mellanox, un'azienda di chip con sede in Israele. Dopo la sua fondazione, Mellanox si è allineata con NGIO e, quando NGIO e FIO si sono fuse, Mellanox è entrata senza problemi nell'ecosistema InfiniBand. Il 2001 ha segnato una pietra miliare: Mellanox ha presentato il suo primo prodotto InfiniBand.

Tuttavia, il panorama della comunità InfiniBand ha subito una notevole trasformazione nel 2002. Intel, uno dei principali protagonisti, ha bruscamente riorientato la propria attenzione verso lo sviluppo di PCI Express (PCIe), lanciato ufficialmente nel 2004. Contemporaneamente, un altro importante collaboratore, Microsoft, si è ritirato dal coinvolgimento attivo nello sviluppo di InfiniBand. Sebbene alcune entità come SUN e Hitachi abbiano perseverato, l'abbandono dei giganti del settore ha gettato ombre sulla traiettoria dello sviluppo di InfiniBand.

La svolta è avvenuta nel 2003, quando InfiniBand ha trovato un nuovo campo di applicazione: l'interconnettività dei cluster di computer. Nello stesso anno, il Virginia Tech ha costruito un cluster basato sulla tecnologia InfiniBand, assicurandosi la terza posizione nell'elenco TOP500, una classifica globale dei supercomputer.

Nel 2004 è emersa un'altra organizzazione no-profit di InfiniBand degna di nota: Open Fabrics Alliance (OFA). OFA e IBTA mantengono un rapporto di collaborazione, con IBTA che si concentra sullo sviluppo, la manutenzione e il miglioramento degli standard del protocollo InfiniBand, mentre OFA si occupa dello sviluppo e della manutenzione sia del protocollo InfiniBand che delle API applicative di livello superiore.

OFA

Nel 2005, InfiniBand ha trovato un altro scenario applicativo: il collegamento dei dispositivi di archiviazione. In questo periodo si è assistito anche alla popolarità di InfiniBand e Fibre Channel (FC) come tecnologie SAN (Storage Area Network), portando una maggiore consapevolezza della tecnologia InfiniBand.

Con l'affermarsi di InfiniBand, la sua base di utenti è cresciuta e nel 2009 181 sistemi della lista TOP500 utilizzavano la tecnologia InfiniBand, anche se Gigabit Ethernet rimaneva il mainstream con 259 sistemi.

Dopo il 2012, spinta dalla crescente domanda di calcolo ad alte prestazioni (HPC), la tecnologia InfiniBand ha continuato a progredire, aumentando costantemente la sua quota di mercato. Nel 2015 ha superato per la prima volta la quota del 50% nell'elenco TOP500, segnando un traguardo significativo. InfiniBand è diventata la tecnologia di interconnessione interna preferita dai supercomputer.

In risposta ai progressi di InfiniBand, Ethernet ha subito degli sviluppi. Nell'aprile 2010, IBTA ha introdotto RoCE (RDMA over Converged Ethernet), "portando" la tecnologia RDMA da InfiniBand a Ethernet. Nel 2014 è stata proposta una versione più matura, RoCE v2. Con RoCE v2, Ethernet ha colmato in modo significativo il divario tecnologico di prestazioni con InfiniBand, sfruttando i vantaggi in termini di costi e compatibilità.

Il grafico seguente illustra le quote tecnologiche nell'elenco TOP500 dal 2007 al 2021, mostrando il panorama dinamico delle tecnologie di calcolo ad alte prestazioni

2007-2021-networking-top500

Come è evidente nel grafico, l'ascesa di Ethernet a 25G e ad alta velocità (illustrata dalla linea verde scuro) è iniziata nel 2015, conquistando rapidamente il favore del settore e mettendo momentaneamente in ombra InfiniBand. L'ascesa di grandi modelli linguistici di intelligenza artificiale, esemplificati dal GPT-3, ha innescato un'impennata esponenziale della domanda sociale di calcolo ad alte prestazioni e di calcolo intelligente.

Per soddisfare le sbalorditive richieste di calcolo imposte da modelli di linguaggio AI di grandi dimensioni come GPT-3, la spina dorsale indispensabile è costituita da cluster di calcolo ad alte prestazioni. In termini di prestazioni, InfiniBand è la scelta preferita per questi cluster.

Nel regno delle reti ad alte prestazioni, il campo di battaglia è principalmente quello di InfiniBand e di Ethernet ad alta velocità, con entrambe le parti che dimostrano di avere capacità comparabili. I produttori che dispongono di ampie risorse optano spesso per InfiniBand, mentre quelli che privilegiano l'economicità tendono a orientarsi verso Ethernet ad alta velocità.

Altre tecnologie, come BlueGene di IBM, Cray e OmniPath di Intel, rimangono come alternative nel secondo livello di opzioni. L'intricata interazione di queste tecnologie riflette il panorama dinamico del calcolo ad alte prestazioni.

Principi tecnici di InfiniBand

Dopo aver tracciato la storia dello sviluppo di InfiniBand, un'esplorazione più approfondita dei suoi principi di funzionamento svela perché supera l'Ethernet tradizionale in termini di prestazioni e latenza. Come fa InfiniBand a raggiungere una latenza così bassa e prestazioni così elevate?

Sviluppi pionieristici: RDMA

Come evidenziato in precedenza, una caratteristica distintiva di InfiniBand è l'integrazione precoce del protocollo Remote Direct Memory Access (RDMA).

Nella struttura TCP/IP convenzionale, i dati viaggiano dalla scheda di rete alla memoria principale e poi subiscono un ulteriore trasferimento allo spazio di memorizzazione dell'applicazione. Al contrario, i dati dello spazio applicativo seguono un percorso simile: passano dallo spazio applicativo alla memoria principale prima di essere trasmessi a Internet attraverso la scheda di rete.

Questa complessa operazione di I/O richiede una copia intermedia nella memoria principale, allungando il percorso di trasferimento dei dati, imponendo un carico alla CPU e introducendo una latenza di trasmissione.

ethernet-vs-rdma

RDMA è una tecnologia che "elimina gli intermediari". Funzionando con un meccanismo di bypass del kernel, RDMA facilita la lettura e la scrittura diretta dei dati tra le applicazioni e la scheda di rete, riducendo la latenza di trasmissione dei dati all'interno dei server a quasi 1 microsecondo.

Inoltre, il meccanismo di zero-copy di RDMA consente all'estremità ricevente di accedere direttamente ai dati dalla memoria del mittente, evitando di coinvolgere la memoria principale. Ciò si traduce in una sostanziale riduzione del carico della CPU, migliorando in modo significativo l'efficienza complessiva della CPU.

Come sottolineato in precedenza, l'adozione diffusa di InfiniBand può essere in gran parte attribuita all'impatto trasformativo di RDMA sull'efficienza del trasferimento dei dati.

Architettura di rete InfiniBand

La struttura della topologia di rete di InfiniBand è rappresentata visivamente nel seguente diagramma:

infiniband-network-topology

InfiniBand si basa su un'architettura a canali, con quattro componenti principali:

  • HCA (Host Channel Adapter)

  • TCA (Target Channel Adapter)

  • Collegamenti InfiniBand (canali di collegamento, che vanno dai cavi alle fibre, e persino collegamenti a bordo)

  • Switch e router InfiniBand (integrali per il networking)

Gli adattatori di canale, in particolare HCA e TCA, svolgono un ruolo cruciale nella creazione dei canali InfiniBand, garantendo sia la sicurezza che il rispetto dei livelli di Quality of Service (QoS) specificati per tutte le trasmissioni.

I sistemi che sfruttano InfiniBand possono essere strutturati in più sottoreti, con ogni sottorete in grado di supportare oltre 60.000 nodi. All'interno di una sottorete, gli switch InfiniBand gestiscono l'elaborazione di livello 2, mentre i router o i bridge facilitano la connettività tra le sottoreti.

infiniband-networking-example

L'elaborazione di secondo livello in InfiniBand è semplificata. Ogni subnet InfiniBand è dotata di un gestore di subnet responsabile della generazione di un Local Identifier (LID) a 16 bit. Gli switch InfiniBand, comprendenti più porte, facilitano l'inoltro di pacchetti di dati da una porta all'altra in base al LID contenuto nell'intestazione di routing locale layer 2. In particolare, gli switch gestiscono principalmente la gestione dei pacchetti e non generano o consumano attivamente pacchetti di dati.

Sfruttando la sua elaborazione semplice e la tecnologia proprietaria Cut-Through, InfiniBand raggiunge una significativa riduzione della latenza di inoltro, raggiungendo livelli inferiori a 100 ns. Questa latenza è notevolmente più veloce di ciò che gli switch Ethernet tradizionali possono offrire.

All'interno della rete InfiniBand, i dati vengono trasmessi sotto forma di pacchetti, ciascuno con una dimensione massima di 4 KB, utilizzando un approccio seriale.

Stack protocollo InfiniBand

Il protocollo InfiniBand abbraccia un approccio di stratificazione strutturato, con ogni livello che funziona in modo indipendente e fornisce servizi al livello posizionato sopra di esso. Si prega di fare riferimento al diagramma sottostante per una rappresentazione visiva:

infiniband-protocol-stack

Lo stack di protocollo InfiniBand include il livello fisico, che determina come i segnali di bit sono strutturati in simboli sul filo, frame, simboli di dati e padding di dati tra i pacchetti. Offre specifiche precise per i protocolli di segnalazione, facilitando la costruzione di pacchetti efficienti.

Spostando lo stack, il livello di collegamento definisce il formato dei pacchetti di dati e delinea i protocolli per le operazioni essenziali dei pacchetti come il controllo del flusso, la selezione del routing, la codifica e la decodifica.

Il livello di rete si occupa della selezione del routing aggiungendo un Global Route Header (GRH) a 40 byte al pacchetto di dati, facilitando l'inoltro dei dati.

Nel processo di inoltro, i router eseguono controlli CRC variabili, garantendo l'integrità della trasmissione dei dati end-to-end.

infiniband-packet-encapsulation-format

Risalendo la pila di protocolli, il livello di trasporto si occupa di consegnare il pacchetto di dati a una QP (Queue Pair) designata e fornisce istruzioni alla QP su come elaborare efficacemente il pacchetto.

I livelli 1-4 ben definiti di InfiniBand costituiscono complessivamente un protocollo di rete completo e il suo controllo di flusso end-to-end costituisce la base della trasmissione e della ricezione dei pacchetti di rete, garantendo reti senza perdite.

QP (Queue Pairs) svolgono un ruolo fondamentale nella tecnologia RDMA. Composte da due code - la coda di invio (SQ) e la coda di ricezione (RQ) - le QP sono le unità di comunicazione fondamentali. Quando gli utenti invocano le chiamate API per inviare o ricevere dati, li inseriscono essenzialmente nella QP. Le richieste all'interno della QP vengono quindi elaborate in modo sequenziale utilizzando un meccanismo di polling.

infiniband-qp

Tasso di collegamento InfiniBand

I collegamenti InfiniBand possono essere stabiliti utilizzando cavi in rame o in fibra ottica, con cavi InfiniBand dedicati scelti in base ai requisiti di connessione specifici.

A livello fisico, InfiniBand definisce diverse velocità di collegamento, come 1X, 4X e 12X, ciascuna delle quali impiega una connessione differenziale seriale a quattro fili, con due fili in ciascuna direzione.

Ad esempio, le prime specifiche SDR (Single Data Rate) prevedevano una larghezza di banda di 2,5 Gbps per un collegamento 1X, 10 Gbps per un collegamento 4X e 30 Gbps per un collegamento 12X. Tuttavia, a causa dell'utilizzo della codifica 8b/10b, la larghezza di banda effettiva per un collegamento 1X era di 2,0 Gbps. Considerando la natura bidirezionale del collegamento, la larghezza di banda totale relativa al bus era di 4 Gbps.

Nel corso del tempo, la larghezza di banda di rete InfiniBand ha subito continui aggiornamenti, passando da SDR, DDR, QDR, FDR, EDR e HDR a NDR, XDR e GDR, come illustrato nel diagramma seguente:

infiniband-roadmap

infiniband-specific-rate-encoding-method

Offerte commerciali di InfiniBand

FS.com offre un portafoglio di prodotti diversificato che copre velocità da 40G a 800G per soddisfare le diverse esigenze di velocità dei clienti, tra cui NDR, HDR, EDR e FRD. La nostra linea di prodotti comprende switch InfiniBand Quantum/Quantum-2, moduli InfiniBand, adattatori InfiniBand, nonché i cavi AOC/DAC che supportano distanze da 0,5 metri a 100 metri. Questi prodotti non solo supportano interconnessioni ad alta velocità e latenza estremamente bassa, ma forniscono anche soluzioni scalabili, accelerando la ricerca, l'innovazione e lo sviluppo di prodotti per gli sviluppatori di intelligenza artificiale e i ricercatori scientifici.

FS-infiniband-product

Inoltre, abbiamo 7 magazzini locali in tutto il mondo che garantiscono consegne rapide. FS conduce rigorosi test di prestazione, affidabilità, scenario e compatibilità per garantire l'eccellenza dei prodotti. FS.com dispone di un team tecnico professionale e di una ricca esperienza nell'implementazione di soluzioni per tutti gli scenari applicativi. Forniamo attivamente soluzioni per il calcolo ad alte prestazioni, i centri dati, l'istruzione, la ricerca, la biomedicina, la finanza, l'energia, la guida autonoma, Internet, la produzione e le telecomunicazioni. Forniamo servizi professionali ai clienti in altri settori.

Conclusioni

In sintesi, la traiettoria di InfiniBand appare promettente, spinta dalle crescenti richieste di calcolo ad alte prestazioni e di intelligenza artificiale.

Ampiamente utilizzata nei cluster di calcolo e nei supercomputer di grandi dimensioni, InfiniBand si distingue per la sua tecnologia di interconnessione ad alte prestazioni e bassa latenza. Risponde perfettamente ai requisiti dei trasferimenti di dati estesi e dell'elaborazione concorrente, offrendo una larghezza di banda elevata e una latenza ridotta. La sua adattabilità a topologie diverse e a schemi di comunicazione intricati posiziona InfiniBand in modo unico, rendendola una scelta formidabile nel campo dell'elaborazione ad alte prestazioni e dell'AI.

Tuttavia, Ethernet, una tecnologia di rete pervasiva, rimane in una traiettoria di evoluzione. Caratterizzata da velocità crescenti e progressi tecnologici, Ethernet ha consolidato la sua posizione nei data center e ha colmato alcune lacune con InfiniBand. Grazie a un ecosistema completo e a un supporto di standardizzazione maturo, Ethernet si presenta come una soluzione accessibile e gestibile negli ambienti tipici dei data center.

Con il progredire della tecnologia e il mutare delle esigenze, sia InfiniBand che Ethernet sono pronti a sfruttare i rispettivi punti di forza in vari scenari applicativi. Il vincitore finale tra InfiniBand ed Ethernet rimane incerto e solo il tempo potrà svelare la storia che si sta svolgendo. Senza dubbio, continueranno a guidare il corso dello sviluppo delle tecnologie dell'informazione, a soddisfare le crescenti esigenze di larghezza di banda e a fornire capacità adeguate per la trasmissione e l'elaborazione efficiente dei dati.

Potresti essere interessato a

Conoscenza
See profile for Sheldon.
Sheldon
Cosa è la porta SFP di uno switch Gigabit?
22 Mag 2023
84.2k
Conoscenza
Conoscenza
See profile for Migelle.
Migelle
Switch PoE, PoE+ e PoE++: Come scegliere?
16 Mar 2023
36.9k
Conoscenza
See profile for Sheldon.
Sheldon
LACP e PAGP: Qual è la differenza?
08 Mar 2023
25.2k
Conoscenza
Conoscenza
See profile for Moris.
Moris
DHCP o IP Statico: Qual è il migliore?
08 Mag 2023
56.0k
Conoscenza
See profile for Migelle.
Migelle
Switch Attivo vs Passivo: Quale Scegliere?
07 Dic 2020
20.4k
Conoscenza
See profile for Sheldon.
Sheldon
RIP vs OSPF: Qual è la differenza?
15 Nov 2022
28.7k
Conoscenza
See profile for Vincent.
Vincent
Capire il moduli BiDi
08 Mar 2021
20.0k
Conoscenza
See profile for Vincent.
Vincent
XFP vs SFP+: Quali sono le differenze?
10 Gen 2023
14.9k
Conoscenza