Italia 



Richieste e Risposte sulla Tecnologia Infiniband

Aggiornato il 03 Gen 2024 by

 128

La domanda di calcolo ad alte prestazioni è in costante crescita con i progressi nelle tecnologie del big data e dell'intelligenza artificiale. Per rispondere a questa domanda, la piattaforma InfiniBand NVIDIA Quantum-2 offre agli utenti eccezionali prestazioni di calcolo distribuito, consentendo una trasmissione dati ad alta velocità e capacità di elaborazione a bassa latenza.

Queste sono domande e risposte comuni sulla tecnologia InfiniBand.

Q: La porta CX7 NDR200 QSFP112 è compatibile con i cavi HDR/EDR?

A: Sì, è compatibile.

Q: Come si può collegare la scheda di rete CX7 NDR allo switch della serie Quantum-2 QM97XX?

A: La scheda di rete CX7 NDR utilizza moduli ottici 400GBASE-SR4 o 400GBASE-DR4 di NVIDIA, mentre lo switch della serie QM97XX utilizza moduli ottici 800GBASE-SR8 (equivalenti a 2x400GBASE-SR4) o 800GBASE-DR8 (equivalenti a 2x400GBASE-DR4). Questi moduli sono collegati utilizzando un cavo di patch con faccia terminale APC a polarità universale a 12 core in modalità multimodale.

Q: Il CX7 a doppia porta 400G può raggiungere 800G attraverso il bonding? Perché il 200G può raggiungere il 400G attraverso il bonding?

A: Le prestazioni complessive della rete sono determinate da fattori come il collo di bottiglia della larghezza di banda PCIe, la capacità di elaborazione della scheda di rete e la larghezza di banda fisica della porta di rete. La scheda di rete CX7 ha una specifica PCIe di 5.0 x16, con un limite teorico di larghezza di banda di 512 Gbps. A causa della limitazione massima di larghezza di banda di PCIe 5.0 x16, l'hardware per la configurazione Dual-port 400G non è disponibile sulla scheda di rete CX7.

Q: Come collegare un cavo uno-a-due?

A: Per ottenere prestazioni ottimali, un cavo uno-a-due (800G a 2X400G) deve essere collegato a due server diversi. Ciò assicura che il cavo di derivazione non sia completamente connesso alla scheda di rete del server Ethernet, poiché i server GPU di solito hanno più schede di rete.

Q: Come vengono collegati i cavi uno-due negli scenari InfiniBand NDR?

A: Negli scenari InfiniBand NDR, ci sono due tipi di cavi uno-a-due. Il primo tipo utilizza moduli ottici con cavi di patch uno-a-due (400G suddiviso in 2x200G), come ad esempio MMS4X00-NS400 + MFP7E20-NXXX + MMS4X00-NS400 (ridimensionato per l'uso a 200G). Il secondo tipo utilizza cavi di rame DAC uno-a-due (800G suddiviso in 2x400G), come ad esempio MCP7Y00-NXXX o MCP7Y10-NXXX.

Q: In una rete Superpod, è possibile collegare direttamente quattro schede NDR200 su ciascun server allo stesso switch utilizzando un cavo 1x4 o è necessario utilizzare due cavi 1x2 per collegarsi a switch diversi?

A: Non è consigliato collegare le quattro porte NDR200 su ogni server allo stesso switch utilizzando un cavo uno-a-quattro in una rete Superpod. Questo metodo di connessione non è conforme alle regole della rete Superpod. Per garantire prestazioni ottimali di NCCL/SHARP, gli switch a foglia dovrebbero utilizzare cavi uno-a-quattro per collegare le porte NDR200 di diversi server in un modello specifico.

Q: In merito all'ultima rete Superpod, come indicato nel Superpod Network White Paper, coinvolge la configurazione di due switch IB con il software UFM separatamente nella rete di calcolo. Tuttavia, questa configurazione comporta la presenza di un nodo GPU in meno nel mio cluster. Se scelgo di non configurare uno switch UFM separato e invece utilizzo il software UFM solo sul nodo di gestione, posso gestire il cluster attraverso un altro insieme di reti di archiviazione senza influenzare la rete di calcolo?

A: Si consiglia di configurare l'attrezzatura UFM, inclusa il software. Implementare il software UFM sul nodo di gestione all'interno della rete di calcolo è una soluzione alternativa, ma non dovrebbe sopportare il carico di lavoro di calcolo GPU. La rete di archiviazione opera in modo indipendente come un piano di rete distinto e non può essere utilizzata per gestire il cluster di calcolo.

Q: Quali sono le differenze tra UFM Enterprise, SDN, Telemetry e Cyber-Al? È necessario acquistare UFM?

A: È possibile utilizzare gli strumenti opensm e script di comando inclusi in OFED per una gestione e un monitoraggio semplici, ma manca dell'interfaccia utente grafica amichevole di UFM e di molte funzioni.

Q: C'è qualche differenza nel numero di gestori di subnet richiesti per lo switch, OFED e UFM? Quale è più adatto per l'implementazione da parte del cliente?

A: La gestione dello switch è adatta per reti con un massimo di 2.000 nodi. Le capacità di gestione dei nodi di UFM e dell'openSM di OFED sono illimitate, ma richiedono una coordinazione con la CPU e le capacità di elaborazione hardware del nodo di gestione.

Q: Perché uno switch con 64 porte da 400 Gb ha 32 porte OSFP?

A: Il vincolo risiede nelle dimensioni e nei limiti di consumo energetico del pannello 2U, che può ospitare solo 32 alloggiamenti. Questa configurazione è progettata per le interfacce OSFP che supportano due porte da 400G. È importante differenziare tra i concetti di alloggiamento e porta per lo switch NDR.

Q: È possibile collegare due moduli con interfacce diverse utilizzando un cavo per trasmettere i dati? Ad esempio, collegare una porta OSFP su un server a una porta QSFP112 su uno switch utilizzando un cavo?

A: L'interconnessione dei moduli è indipendente dall'imballaggio. OSFP e QSFP112 descrivono principalmente le dimensioni fisiche del modulo. Finché il tipo di supporto Ethernet è lo stesso (cioè, entrambe le estremità del collegamento sono 400G-DR4 o 400G-FR4, ecc.), i moduli OSFP e QSFP112 possono essere compatibili tra loro.

Q: È possibile utilizzare UFM per monitorare le reti RoCE?

A: No, UFM supporta solo le reti InfiniBand.

Q: Le funzionalità di UFM sono le stesse per gli switch gestiti e non gestiti?

A: Sì, le funzionalità rimangono invariate.

Q：Qual è la distanza massima di trasmissione supportata dai cavi IB senza impattare sulla larghezza di banda e sulla latenza di trasmissione?

A: I moduli ottici + jumper possono raggiungere approssimativamente i 500 metri, mentre i cavi DAC passivi hanno un raggio di circa 3 metri, e i cavi ACC attivi possono arrivare fino a 5 metri.

Q: Le schede di rete CX7 possono essere collegate ad altri switch Ethernet 400G che supportano RDMA in modalità Ethernet?

A: È possibile stabilire una connessione Ethernet da 400G, e RDMA (RoCE) può operare in queste circostanze, ma le prestazioni non sono garantite. Per Ethernet a 400G, si consiglia di utilizzare la piattaforma Spectrum-X composta da BF3+Spectrum-4.

Q: Se l'NDR è compatibile con l'HDR e l'EDR, questi cavi e moduli sono disponibili solo in un unico pezzo?

A: Sì, in genere si utilizzano cavi DAC/AOC da OSFP a 2xQSFP56 per garantire la compatibilità con HDR o EDR.

Q: Il modulo sul lato della scheda di rete OSFP deve essere un modulo piatto?

A: La scheda di rete è dotata di un dissipatore di calore, quindi è possibile utilizzare direttamente un modulo alettato. I moduli alettati sono utilizzati principalmente sul lato degli switch raffreddati a liquido.

Q: La scheda di rete IB supporta RDMA in modalità Ethernet?

A: L'RDMA su Ethernet (RoCE) può essere abilitato, ed è consigliato utilizzare la soluzione Nvidia Spectrum-X.

Q: Perché non ci sono AOC NDR?

A: I moduli OSFP sono grandi e pesanti e rendono le fibre ottiche più suscettibili ai danni. Un cavo a due diramazioni presenta tre grandi estremità di transceiver, mentre un cavo a quattro diramazioni presenta cinque transceiver. Ciò aumenta il rischio di rottura delle fibre durante l'installazione, in particolare per gli AOC da 30 metri.

Q: I cavi sono gli stessi per 400G IB e 400G Ethernet, a parte i diversi moduli ottici?

A: I cavi ottici sono gli stessi, ma è importante notare che sono di tipo APC con un angolo di 8 gradi.

Q: Esistono requisiti specifici per le prestazioni di latenza delle schede di rete CX7? Qual è il requisito di latenza della rete in ambienti di debug ottimali, come la memoria completa e i core vincolati? Qual è un valore di latenza accettabile, ad esempio, inferiore a quanti microsecondi?

A:Le prestazioni di latenza dipendono dalla frequenza e dalla configurazione della macchina di test, nonché dagli strumenti di test utilizzati, come perftest e MPI.

Q: Il modulo sul lato della scheda di rete OSFP dovrebbe essere un modulo OSFP-flat? Perché si parla di dissipatore OSFP?

A: Il termine "Riding heatsink" si riferisce a un dissipatore di calore integrato nella gabbia.

Q: Dove si colloca UFM in questa soluzione cluster? Vorrei capire il suo ruolo.

A: UFM opera separatamente su un server e può essere trattato come un nodo. Supporta l'alta disponibilità utilizzando due server. Tuttavia, non è consigliabile eseguire UFM su un nodo che gestisce anche carichi di lavoro di calcolo.

Q: Per quale scala di cluster di rete è consigliato UFM?

A: Si consiglia di configurare UFM per tutte le reti InfiniBand, in quanto UFM fornisce non solo OpenSubnet Manager (openSM) ma anche altre potenti funzioni di gestione e interfaccia.

Q: PCIe 5 supporta solo fino a 512 G? E PCIe 4?

A: PCIe Gen5 offre fino a 32G x 16 corsie, con una larghezza di banda massima di 512G. D'altra parte, PCIe Gen4 offre fino a 16G x 16 corsie, con una larghezza di banda massima di 256G.

Q: Le schede di rete IB supportano modalità simplex o duplex?

A: Le schede di rete IB sono tutte duplex. Simplex o duplex è solo un concetto per i dispositivi attuali, poiché i canali fisici per la trasmissione e la ricezione dei dati sono già separati.

Q：FS è in grado di fornire supporto tecnico e prodotti di alta qualità per la costruzione di cluster di rete IB?

A: Naturalmente, FS è specializzata nella fornitura di soluzioni di calcolo ad alte prestazioni e di data center. Ha una ricca esperienza e competenza nella costruzione di cluster di rete IB e fornisce una varietà di soluzioni di connettività hardware per soddisfare le esigenze dei diversi clienti.

La soluzione InfiniBand di FS include cavi AOC/DAC e moduli con velocità di 800G, 400G, 200G, 100G e 56/40G, adattatori NVIDIA InfiniBand e switch NVIDIA InfiniBand. Nelle soluzioni di cluster di reti IB, il team professionale di FS fornirà le soluzioni di connettività hardware appropriate in base alle tue esigenze e alla scala della rete, garantendo stabilità e prestazioni elevate della rete.