Italia

Progettazione architettura di rete di centro di computing Al

Aggiornato il 08 Gen 2024 by
118

Le reti dei data center per le configurazioni cloud convenzionali sono generalmente progettate con un modello di traffico che tiene conto delle esigenze dei clienti esterni. Questa orientazione si traduce in un flusso predominante di dati dai data center verso gli utenti finali, un movimento direzionale spesso denominato traffico nord-sud. Al contrario, il traffico che si sposta lateralmente all'interno del cloud, etichettato come est-ovest, passa in secondo piano in questo modello. Tuttavia, questa infrastruttura di rete fondamentale, facilitando le reti Virtual Private Cloud (VPC) e supportando le attività di calcolo intelligente, si confronta con diverse difficoltà.

Al Intelligent Computing Center Network Architecture-1

Congestione di rete: Non tutti i server generano traffico in uscita contemporaneamente. Per controllare i costi di costruzione della rete, la larghezza di banda delle porte di downlink sugli switch leaf e delle porte di uplink non ha un rapporto 1:1, ma è progettata con un rapporto di convergenza. Generalmente, la larghezza di banda di uplink è solo un terzo di quella di downlink.

Alta latenza per il traffico interno del cloud: La comunicazione tra due server attraverso diversi switch leaf richiede il transito attraverso gli switch spine, risultando in un percorso di inoltro a tre hop, il che introduce una latenza aggiuntiva.

Larghezza di banda limitata: Nella maggior parte dei casi, una singola macchina fisica è dotata di una sola scheda di interfaccia di rete (NIC) per la connessione alla rete VPC. La larghezza di banda di una singola NIC è relativamente limitata, e le NIC commerciali attualmente disponibili di solito non superano i 200 Gbps.

Per scenari di calcolo intelligente, una pratica consigliata è quella di costruire una rete dedicata ad alte prestazioni per gestire carichi di lavoro di calcolo intelligente, soddisfacendo i requisiti di elevata larghezza di banda, bassa latenza e assenza di perdite.

Design ad alta larghezza di banda

I server di calcolo intelligente possono essere completamente equipaggiati con 8 schede GPPU e avere riservati 8 slot per schede di rete PCIe. Quando si costruisce un cluster di GPU su più macchine, la larghezza di banda burst per la comunicazione tra due GPU può superare i 50 Gbps. Pertanto, è comune associare ciascuna GPU a una porta di rete di almeno 100 Gbps. In questo scenario, è possibile configurare 4 schede di rete con una capacità di 2100 Gbps ciascuna o 8 schede di rete con una capacità di 1100 Gbps ciascuna. In alternativa, è possibile configurare 8 schede di rete con una capacità di una singola porta di 200/400 Gbps.

Al Intelligent Computing Center Network Architecture-2

Sblocco del design

La chiave per sbloccare il design di rete è adottare un'architettura fat tree. La larghezza di banda delle porte di downlink e uplink degli switch segue un design non convergente 1:1. Ad esempio, se ci sono 64 porte con una larghezza di banda di 100 Gbps ciascuna in downlink, ci saranno anche 64 porte con una larghezza di banda di 100 Gbps ciascuna in uplink.

Inoltre, dovrebbero essere utilizzati switch di livello data center con capacità di inoltro non bloccante. Gli switch data center di mainstream disponibili sul mercato generalmente forniscono la capacità di inoltro non bloccante per tutte le porte.

Progettazione a bassa latenza: Al-Pool

In termini di progettazione di architettura di rete a bassa latenza, Baidu Intelligent Cloud ha implementato e dispiegato la soluzione di rete Al-Pool basata sull'ottimizzazione di Rail. In questa soluzione di rete, 8 switch di accesso formano un gruppo AA-Pool. Prendendo come esempio un'architettura di rete con switch a due livelli, questa architettura di rete consente una comunicazione a un hop tra nodi di calcolo intelligenti diversi all'interno dello stesso Al-Pool.

Nell'architettura di rete Al-Pool, le porte di rete con gli stessi numeri provenienti da diversi nodi di calcolo intelligenti dovrebbero essere collegate allo stesso switch. Ad esempio, la porta RDMA 1 del nodo di calcolo intelligente 1, la porta RDMA 1 del nodo di calcolo intelligente 2 e così via, fino alla porta RDMA 1 del nodo di calcolo intelligente P/2, dovrebbero tutte essere collegate allo stesso switch.

All'interno di ciascun nodo di calcolo intelligente, la libreria di comunicazione di livello superiore abbina le schede GPU alle corrispondenti porte di rete in base alla topologia di rete interna al nodo. Ciò consente una comunicazione diretta con un solo hop tra due nodi di calcolo intelligenti che hanno lo stesso numero di scheda GPU.

Per la comunicazione tra nodi di calcolo intelligenti con diversi numeri di schede GPU, la tecnologia Rail Local nella libreria di comunicazione NCCL può sfruttare appieno la larghezza di banda di NVSwitch tra le GPU all'interno dell'host, trasformando la comunicazione tra schede diverse su macchine diverse in comunicazione tra gli stessi numeri di scheda GPU attraverso le macchine.

Al Intelligent Computing Center Network Architecture-3

Per la comunicazione tra due macchine fisiche attraverso Al-Pool, è necessario passare attraverso gli switch di aggregazione, risultando in una comunicazione a tre hop.

La scalabilità delle GPU che la rete può supportare è legata alla densità delle porte e all'architettura di rete degli switch utilizzati. Man mano che la rete diventa più gerarchica, può ospitare un maggior numero di schede GPU, ma il numero di hop e la latenza per l'inoltro aumentano anche. Pertanto, è necessario trovare un compromesso basato sui requisiti effettivi del business.

Architettura a due livelli fat tree

8 switch di accesso formano un pool di risorse di calcolo intelligente chiamato Al-Pool. Nel diagramma, P rappresenta il numero di porte su uno switch singolo. Ogni switch può avere al massimo P/2 porte di downlink e P/2 porte di uplink, il che significa che un singolo switch può connettersi fino a P/2 server e P/2 switch. Una rete fat tree a due livelli può ospitare un totale di P*P/2 schede GIPU.

Architettura a tre livelli fat tree

In un'architettura di rete a tre livelli, sono presenti gruppi addizionali di switch di aggregazione e gruppi di switch core. Il numero massimo di switch in ciascun gruppo è P/2. Il numero massimo di gruppi di switch di aggregazione è 8, e il numero massimo di gruppi di switch core è P/2. Una rete fat tree a tre livelli può ospitare un totale di P*(P/2)(P/2) = PP*P/4 schede GPU.

Nel contesto di una rete fat tree a tre livelli, gli switch InfiniBand HDR da 40 porte e 200 Gbps possono ospitare un massimo di 16.000 GPU. Questa scala di 16.000 schede GPU è attualmente la più grande scala di rete per cluster di GPU che utilizzano InfiniBand in Cina, e Baidu detiene il record attuale.

Al Intelligent Computing Center Network Architecture-4

Confronto tra architetture di rete a due livelli e a tre livelli di tipo Fat-Tree:

La scala delle schede GPU ospitate

La differenza più significativa tra una rete fat tree a due livelli e una a tre livelli risiede nella capacità di ospitare schede GPU. Nel diagramma sottostante, N rappresenta la scala delle schede GPU, e P rappresenta il numero di porte su uno switch singolo. Ad esempio, per uno switch con 40 porte, un'architettura fat tree a due livelli può ospitare 800 schede GPU, mentre un'architettura fat tree a tre livelli può ospitare 16.000 schede GPU.

Al Intelligent Computing Center Network Architecture-5

Percorso di inoltro

Un'altra differenza tra le architetture di rete fat tree a due livelli e fat tree a tre livelli è il numero di hop nel percorso di inoltro di rete tra due nodi qualsiasi.

Nell'architettura fat tree a due livelli, all'interno dello stesso pool di risorse di calcolo intelligente (Al-Pool), il percorso di inoltro tra nodi con lo stesso numero di scheda GPU è di 1 hop. Il percorso di inoltro tra nodi con numeri di scheda GPU diversi, senza ottimizzazione Rail Local all'interno dei nodi di calcolo intelligenti, è di 3 hop.

Nell'architettura fat tree a tre livelli, all'interno dello stesso pool di risorse di calcolo intelligente (AI-Pool), il percorso di inoltro tra nodi con lo stesso numero di scheda GPU è di 3 hop. Il percorso di inoltro tra nodi con numeri di scheda GPU diversi, senza ottimizzazione Rail Local all'interno dei nodi di calcolo intelligenti, è di 5 hop.

Al Intelligent Computing Center Network Architecture-6

 

Pratica tipica dell'architettura di rete AI HPC

In base agli attuali switch commerciali consolidati, raccomandiamo diverse specifiche per le architetture di rete fisica, tenendo conto dei diversi modelli di switch InfiniBand/RoCE e della scala supportata di GPU.

Standard: Architettura di rete fat tree a due livelli basata su switch InfiniBand HDR, supportando un massimo di 800 schede GPU in un singolo cluster.

Grande: Architettura di rete fat tree a due livelli basata su switch Ethernet da data center da 128 porte a 100 G con RoCE, supportando un massimo di 8192 schede GPU in un singolo cluster.

XLarge: Architettura di rete fat tree a tre livelli basata su switch InfiniBand HDR, supportando un massimo di 16.000 schede GPU in un singolo cluster.

XXLarge: Basata su switch Quantum-2 InfiniBand o switch Ethernet per data center con prestazioni equivalenti, adottando un'architettura di rete fat tree a tre livelli, supportando un massimo di 100.000 schede GPU in un singolo cluster.

Al Intelligent Computing Center Network Architecture-7

Allo stesso tempo, la connettività di rete ad alta velocità è essenziale per garantire una trasmissione e un elaborazione efficienti dei dati.

FS fornisce prodotti di connessione di alta qualità per soddisfare i requisiti della distribuzione della rete del modello AI. La lineup di prodotti FS include switch InfiniBand (200G, 400G), switch per data center (10G, 40G, 100G, 400G), schede di rete e moduli ottici (10/25G, 40G, 50/56G, 100G), che possono accelerare il processo di addestramento e inferenza dei modelli AI. I moduli ottici offrono un'ampia larghezza di banda, bassa latenza e basse percentuali di errore, potenziando le capacità delle reti dei data center e consentendo un'elaborazione A più rapida ed efficiente. La scelta dei prodotti di connessione FS può ottimizzare le prestazioni di rete e supportare la distribuzione e il funzionamento di modelli AI su larga scala.

Potresti essere interessato a

Conoscenza
See profile for Sheldon.
Sheldon
Cosa è la porta SFP di uno switch Gigabit?
22 Mag 2023
83.8k
Conoscenza
Conoscenza
See profile for Migelle.
Migelle
Switch PoE, PoE+ e PoE++: Come scegliere?
16 Mar 2023
36.8k
Conoscenza
See profile for Sheldon.
Sheldon
LACP e PAGP: Qual è la differenza?
08 Mar 2023
25.1k
Conoscenza
Conoscenza
See profile for Moris.
Moris
DHCP o IP Statico: Qual è il migliore?
08 Mag 2023
55.8k
Conoscenza
See profile for Migelle.
Migelle
Switch Attivo vs Passivo: Quale Scegliere?
07 Dic 2020
20.4k
Conoscenza
See profile for Sheldon.
Sheldon
RIP vs OSPF: Qual è la differenza?
15 Nov 2022
28.6k
Conoscenza
See profile for Vincent.
Vincent
Capire il moduli BiDi
08 Mar 2021
19.9k
Conoscenza
See profile for Vincent.
Vincent
XFP vs SFP+: Quali sono le differenze?
10 Gen 2023
14.9k
Conoscenza