Costruire Reti HPC Efficaci: Un Confronto Dettagliato tra la Soluzione InfiniBand e la Soluzione RoCEv2
Con l'aumento della domanda di calcolo più efficiente, molte aziende cercano una soluzione di rete efficace e adatta per costruire una rete di High-Performance Computing (HPC) a prova di futuro e potente. Due soluzioni principali che dominano il panorama delle reti HPC sono la soluzione InfiniBand e la soluzione RoCEv2. Ognuna ha vantaggi tecnici distinti, architetture di rete e prodotti adatti, rendendole appropriate per diversi scenari di rete HPC.
Panoramica della Soluzione di Rete InfiniBand
La rete InfiniBand è riconosciuta come una soluzione ad alte prestazioni e bassa latenza, altamente adatta per HPC, grandi data center aziendali e ampie infrastrutture cloud. Utilizza un'architettura a doppio strato che separa i livelli fisici e di collegamento dal livello di rete. Il livello fisico impiega collegamenti seriali ad alta larghezza di banda per connessioni dirette punto a punto tra i dispositivi, mentre il livello di collegamento gestisce la trasmissione e la ricezione dei pacchetti. Il livello di rete supervisa la comunicazione end-to-end e il routing, garantendo la corretta consegna dei pacchetti dalla sorgente alla destinazione.
La soluzione di rete InfiniBand consente connessioni punto a punto e supporta funzionalità essenziali come la virtualizzazione, la Quality of Service (QoS) e l'accesso diretto alla memoria remota (RDMA), rendendole ideali per carichi di lavoro HPC che richiedono un'elaborazione rapida di volumi di dati sostanziali.
Per saperne di più sui vantaggi delle reti InfiniBand, leggi Cosa rende InfiniBand eccezionale?
Architettura della Rete InfiniBand
Di seguito è riportato un diagramma dell'architettura della rete InfiniBand fornito da FS, che comprende la rete di calcolo InfiniBand, la rete di gestione in-band e out-of-band e la rete di archiviazione. La principale distinzione tra le reti InfiniBand e le reti RoCEv2 è che la rete di calcolo InfiniBand per carichi di lavoro HPC utilizza un'infrastruttura InfiniBand dedicata.
Per la rete di calcolo InfiniBand, FS utilizza dispositivi InfiniBand NVIDIA® altamente acclamati, inclusi lo switch di data center InfiniBand da 800G MQM9790-NS2F, moduli InfiniBand da 800G e 400G e la scheda adattatore ConnectX®-7 InfiniBand MCX75510AAS-NEAT. Nella rete di gestione, gli switch FS utilizzano il software PicOS® e la piattaforma di gestione AmpCon™, consentendo ai clienti di fornire, monitorare, gestire, risolvere problemi e mantenere in modo efficiente l'infrastruttura HPC. Gli switch FS PicOS® supportano il protocollo BGP con robuste capacità di controllo del routing per la rete di archiviazione, garantendo percorsi di inoltro ottimali e prestazioni a bassa latenza.
Switch InfiniBand
NVIDIA attualmente guida il mercato degli switch IB, detenendo la quota di mercato più grande. Gli switch InfiniBand NVIDIA Quantum offrono capacità di auto-guarigione della rete, qualità del servizio (QoS) migliorata, controllo della congestione e routing adattivo per fornire la massima larghezza di banda complessiva delle applicazioni. Nel 2021, NVIDIA ha introdotto la piattaforma InfiniBand Quantum-2, che potenzia i principali data center di supercalcolo del mondo con networking definito dal software, calcolo in rete, isolamento delle prestazioni, motori di accelerazione avanzati, RDMA e le velocità e le larghezze di banda più elevate fino a 400Gb/s.
Come partner Elite fidato nella NVIDIA Partner Network, FS offre una gamma di switch InfiniBand NVIDIA® Quantum e Quantum-2 ad alte prestazioni InfiniBand. Gli switch InfiniBand da 400G ottimizzati vantano una larghezza di banda bidirezionale di 51,2 terabit al secondo (Tb/s) e una capacità superiore a 66,5 miliardi di pacchetti al secondo (BPPS). Questi switch InfiniBand forniscono una soluzione ad alta velocità, ultra-bassa latenza e scalabile per le reti HPC.
|
|
|
|
|
Prodotto | MQM8790-HS2F | MQM8700-HS2F | MQM9700-NS2F | MQM9790-NS2F |
Porti | 40 x HDR 200G | 40 x HDR 200G | 64 x NDR 400G | 64 x NDR 400G |
40 connettori QSFP56 | 40 connettori QSFP56 | 32 connettori OSFP | 32 connettori OSFP | |
CPU | Broadwell ComEx D-1508 2.2GHZ | Broadwell ComEx D-1508 2.2GHZ | x86 Coffee Lake i3 | x86 Coffee Lake i3 |
Chip di Switch | NVIDIA QUANTUM | NVIDIA QUANTUM | NVIDIA QUANTUM-2 | NVIDIA QUANTUM-2 |
Capacità di Switching | 16Tbps | 16Tbps | 51.2Tbps | 51.2 Tbps |
Tipo di Gestione | Non gestito | Gestito | Gestito | Non gestito |
Trasmettitori e Cavi InfiniBand
Le reti InfiniBand richiedono trasmettitori e cavi InfiniBand dedicati per connessioni switch-a-switch e switch-a-NIC.
Le ottiche e i trasmettitori InfiniBand di FS sono progettati meticolosamente per soddisfare i requisiti esigenti dei moderni data center e degli ambienti HPC. Questi trasmettitori coprono un'ampia gamma di velocità, da 40G a 800G, e sono disponibili in vari formati come QSFP+, QSFP28, QSFP56 e OSFP. Sono verificati al 100% dal produttore originale e perfettamente compatibili con gli switch InfiniBand NVIDIA Quantum/Quantum-2 e con i connettori ConnectX HCA.
Per ulteriori dettagli, controlla Guida Completa ai Trasmettitori e Cavi InfiniBand di FS.
Adattatori di Rete InfiniBand
I fornitori di NIC InfiniBand sono prevalentemente guidati da NVIDIA. FS offre anche una selezione diversificata di adattatori InfiniBand NVIDIA® ConnectX®-6 e ConnectX®-7 adattatori InfiniBand, con porte come 100G QSFP56, 200G QSFP56, 400G QSFP112 e 400G OSFP. Utilizzando velocità superiori e innovativa In-Network Computing, gli adattatori intelligenti InfiniBand NVIDIA® ConnectX® offrono prestazioni eccezionali e scalabilità. Riducono il costo per operazione, migliorando così il ROI per HPC, ML, archiviazione avanzata, applicazioni embedded I/O a bassa latenza e altro ancora.
|
|
|
|
|
|
|
Famiglia di Prodotti | ConnectX®-6 VPI | ConnectX®-6 VPI | ConnectX®-6 VPI | ConnectX®-6 | ConnectX®-7 | ConnectX®-7 VPI |
Modello | MCX653105A-ECAT | MCX653106A-ECAT | MCX653105A-HDAT | MCX653106A-HDAT | MCX75510AAS-NEAT | MCX715105AS-WEAT |
Porte | 100G Single-Port QSFP56 | 100G Dual-Port QSFP56 | 200Gb Single-Port QSFP56 | 200G Dual-Port QSFP56 | 400Gb Single-Port OSFP | 400G Single-Port QSFP112 |
Interfaccia Host | PCIe 4.0 x16 | PCIe 4.0 x16 | PCIe 4.0 x16 | PCIe 4.0 x16 | PCIe5.0 x16 | PCIe 5.0 x16 |
Panoramica della Soluzione di Rete RoCEv2
RoCE è un protocollo di rete che consente RDMA su una rete Ethernet. RoCEv2, la seconda versione del protocollo, offre prestazioni e funzionalità migliorate.
La soluzione di rete RoCEv2 aiuta a ridurre il carico della CPU poiché fornisce accesso diretto alla memoria per le applicazioni bypassando la CPU. Poiché l'elaborazione dei pacchetti e l'accesso alla memoria avvengono in hardware, la rete RoCEv2 consente un throughput più elevato, una latenza inferiore e un utilizzo della CPU ridotto sia sul lato del mittente che su quello del ricevitore, tutti elementi critici per le applicazioni HPC.
Le reti RoCE utilizzano tecnologie avanzate come PFC ed ECN per garantire zero perdita di pacchetti e creare un ambiente Ethernet senza perdite.
PFC (Controllo del Flusso Basato su Priorità): PFC delinea un meccanismo di controllo del flusso a livello di collegamento per peer direttamente connessi. Utilizza frame PAUSE 802.3 per gestire il controllo del flusso per più classi di traffico. Gli switch possono scartare il traffico meno critico e segnalare ai dispositivi peer di fermare il traffico in classi specifiche, garantendo che i dati cruciali non vengano scartati e possano passare attraverso la stessa porta senza limitazioni.
ECN (Notifica Esplicita di Congestione): ECN definisce meccanismi di controllo del flusso e notifica di congestione end-to-end basati sui livelli IP e di trasporto. Quando un dispositivo sperimenta congestione, ECN segna il campo ECN nell'intestazione IP dei pacchetti dati. Il ricevitore invia un Pacchetto di Notifica di Congestione (CNP) per notificare il mittente di ridurre la velocità di trasmissione. ECN fornisce gestione della congestione end-to-end, minimizzando la diffusione e l'intensificazione della congestione.
Per ulteriori dettagli su RoCE, puoi controllare Guida RDMA su Ethernet Convergente.
Architettura di Rete RoCEv2
A differenza delle reti InfiniBand, le reti RoCEv2 utilizzano un'infrastruttura di data center Ethernet ad alte prestazioni, portando a una migliore interoperabilità tra la rete di calcolo RoCE, la rete di gestione e la rete di archiviazione. Come illustrato nella soluzione RoCE di FS qui sotto, questi vari segmenti di rete possono tutti implementare gli switch PicOS® di FS e la piattaforma di gestione AmpCon™ per ottenere una gestione unificata della rete.
Per soddisfare le elevate richieste di throughput delle reti ad alte prestazioni, i dispositivi nelle implementazioni RoCEv2 raggiungono velocità fino a 400G. Nella soluzione di rete RoCE di FS, i transceiver Ethernet FS 400G e gli switch di data center N9550-64D con 64 porte QSFP-DD da 400Gb sono implementati nella rete di calcolo RoCE per garantire un elevato throughput.
Switch di Data Center
Il componente centrale degli switch ad alte prestazioni è il chip di commutazione. Attualmente, i chip della serie Tomahawk di Broadcom sono ampiamente utilizzati negli switch di data center per le reti RoCEv2, progettati per reti cloud a iperscala, reti di archiviazione e ambienti HPC.
FS offre switch di data center ad alte prestazioni e altamente affidabili per la costruzione di reti RoCEv2, che vanno da 10G a 400G. L'immagine qui sotto mostra alcuni degli switch di data center FS alimentati da chip della serie Tomahawk, progettati per applicazioni HPC, offrendo alta densità e disponibilità. Questi switch vengono forniti con il software PicOS® preinstallato e supportano PFC ed ECN, offrendo reti Ethernet senza perdite a bassa latenza e senza blocchi. Il software switch PicOS® fornisce capacità SDN complete ed è compatibile con la piattaforma di gestione AmpCon™, offrendo un sistema operativo di rete (NOS) resiliente, programmabile e scalabile a un costo totale di proprietà (TCO) inferiore.
Transceiver e Cavi Ethernet ad Alta Velocità
Le reti RoCEv2 operano su Ethernet, il che consente l'implementazione di transceiver Ethernet tradizionali e cavi DAC/AOC. Di conseguenza, ci sono più fornitori di dispositivi di rete RoCEv2 tra cui scegliere. Inoltre, la soluzione RoCEv2 offre una gamma più ampia di prodotti e strategie di implementazione.
Per le reti HPC, FS offre moduli e cavi ad alta velocità 200G/400G/800G compatibili con dispositivi di marchi come Cisco, Arista, Dell, Juniper, ecc. Sono disponibili moduli o cavi che supportano varie velocità di trasmissione, come SR4, SR8, DR4, LR4 ed ER8.
Adattatori di Rete Ethernet per Reti RoCEv2
Le schede di rete della serie NVIDIA ConnectX, che supportano RoCE, dominano attualmente il mercato. Con prestazioni RoCE senza pari, le NIC ConnectX offrono servizi RDMA efficienti e ad alte prestazioni per applicazioni sensibili alla larghezza di banda e alla latenza. FS offre una varietà di adattatori ethernet NVIDIA® ConnectX che offrono bassa latenza e alto throughput a velocità di 25G, 100G, 200G e fino a 400G.
-
Le schede adattatore ConnectX®-4 offrono soluzioni economiche per i data center, combinando prestazioni e scalabilità per garantire che le infrastrutture funzionino in modo efficiente, soddisfacendo le esigenze di varie applicazioni critiche.
-
Gli adattatori di rete ConnectX®-5 presentano avanzate capacità di scarico hardware per ridurre il consumo di risorse della CPU e raggiungere tassi di pacchetti e throughput estremamente elevati, migliorando l'efficienza dell'infrastruttura del data center.
-
Le schede adattatore ConnectX®-6 incorporano tutte le innovazioni delle versioni precedenti, insieme a numerosi miglioramenti, offrendo prestazioni e efficienza senza pari a qualsiasi scala.
-
Con un throughput di fino a 400Gb/s, le NIC NVIDIA® ConnectX®-7 offrono servizi di networking, archiviazione, sicurezza e gestibilità accelerati dall'hardware a scala di data center, soddisfacendo le esigenze di cloud, telecomunicazioni, data center HPC e carichi di lavoro aziendali.
Soluzione di Rete InfiniBand VS. Soluzione di Rete RoCEv2
Dal punto di vista tecnico, le soluzioni di rete InfiniBand impiegano tecnologie avanzate per aumentare le prestazioni di inoltro della rete, minimizzare il tempo di recupero dai guasti, migliorare la scalabilità e ridurre la complessità operativa.
Le soluzioni InfiniBand sono perfette per ambienti HPC dedicati in cui le prestazioni estreme e la bassa latenza sono critiche. Tuttavia, comportano costi hardware più elevati e offrono una selezione di fornitori più limitata. D'altra parte, le soluzioni RoCEv2 sono ben adattate per applicazioni HPC e big data che richiedono compatibilità con l'infrastruttura Ethernet esistente. L'hardware RoCEv2 è relativamente più facile da integrare, anche se le sue prestazioni sono leggermente inferiori rispetto a quelle di InfiniBand.
-
Prestazioni: La latenza end-to-end più bassa della soluzione InfiniBand le conferisce un vantaggio nelle prestazioni delle applicazioni rispetto a RoCEv2. Tuttavia, RoCEv2 può soddisfare i requisiti di prestazione per la maggior parte dei compiti di calcolo intelligente.
-
Funzione & Scala: Le reti InfiniBand possono supportare scale di singolo cluster con decine di migliaia di GPU senza un calo delle prestazioni complessive. Le reti RoCEv2 possono supportare cluster con migliaia di GPU senza compromettere significativamente le prestazioni complessive della rete.
-
Operazioni e Manutenzione: InfiniBand è più maturo di RoCEv2, offrendo funzionalità come l'isolamento multi-tenant e diagnostica operativa avanzata. Le reti RoCEv2 si affidano a PFC per trasformare Ethernet in un tessuto senza perdita. Tuttavia, PFC può portare a problemi di gestione, inclusi tempeste PFC e deadlock.
-
Costo: InfiniBand è più costoso di RoCEv2, principalmente a causa del costo più elevato degli switch InfiniBand rispetto agli switch Ethernet.
-
Fornitore: I fornitori di soluzioni InfiniBand sono prevalentemente guidati da NVIDIA, mentre la soluzione RoCEv2 ha una gamma più ampia di fornitori.
Conclusione
La scelta tra la soluzione InfiniBand e la soluzione RoCEv2 dipende infine dalle esigenze specifiche e dai vincoli dell'ambiente HPC. Le organizzazioni con ampie esigenze HPC e un budget per infrastrutture specializzate potrebbero trovare InfiniBand la scelta superiore. Nel frattempo, coloro che cercano una soluzione più conveniente che si integri perfettamente con i sistemi esistenti potrebbero preferire RoCEv2.
Comprendendo i punti di forza e le limitazioni di ciascuna soluzione, le organizzazioni possono prendere decisioni informate che ottimizzano le loro reti HPC per prestazioni, affidabilità ed efficienza dei costi.
Articoli Correlati:
Costruire l'Architettura di Networking del Data Center HPC con la Soluzione FS InfiniBand
InfiniBand Insights: Potenziare il Calcolo ad Alte Prestazioni nell'Era Digitale
Potresti essere interessato a
Indirizzo Email

-
Cosa è la porta SFP di uno switch Gigabit?
22 Mag 2023
-
Come Capire l'indirizzo IP e la Subnet Mask?
24 Set 2022
-
Cosa è un Iniettore PoE e come si usa?
21 Feb 2023
-
DHCP o IP Statico: Qual è il migliore?
08 Mag 2023