Français

Technologie DDC : Une Solution Révolutionnaire Proposée par les Réseaux AIGC

Mis à jour depuis le 14 mars, 2024 by
130

 

D'ici 2023, la technologie du contenu généré par l'intelligence artificielle (AIGC) - dont ChatGPT est un exemple parfait - prendra une ampleur considérable et modifiera l'industrie dans plusieurs domaines, notamment la génération de textes, le développement de codes et la production de poèmes. Dans cet article, nous allons explorer la technologie révolutionnaire DDC pour la mise en réseau, une solution révolutionnaire introduite par la nouvelle génération d'AIGC Network. Cette technologie innovante promet de révolutionner le paysage des réseaux, en améliorant l'efficacité et la connectivité de manière inédite.

Trois méthodes de partage de la charge des GPU

La puissance extraordinaire des grands modèles AIGC susmentionnés découle non seulement de leur grande quantité de données, mais aussi de l'évolution et du progrès continus des algorithmes. Lors de l'entraînement de ces grands modèles, plusieurs GPU sont souvent nécessaires pour répartir la charge de travail. Trois méthodes sont employées pour parvenir à un partage efficace de la charge : le parallélisme de données, le parallélisme de tenseurs et le parallélisme de pipeline.

Parallélisme des données

Le parallélisme des données consiste à diviser les données d'entrée du modèle en plusieurs mini-lots et à traiter parallèlement ces mini-lots sur différents GPU. Chaque GPU possède une copie complète du modèle et traite indépendamment ses propres mini-lots. Grâce à la communication et à la synchronisation entre les GPU, les paramètres du modèle sont mis à jour et intégrés. Le parallélisme des données convient aux modèles comportant des ensembles de données d'apprentissage à grande échelle, accélérant le processus d'apprentissage et améliorant la vitesse de convergence du modèle.

Parallélisme tensoriel

Le parallélisme tensoriel est généralement utilisé lorsque le modèle est trop volumineux pour être contenu dans la mémoire d'un seul processeur. Dans cette méthode, différentes parties du modèle sont allouées à différents GPU, chaque GPU étant responsable du traitement d'une partie des données d'entrée et de l'exécution des calculs correspondants. Les résultats sont collectés et intégrés par le biais d'une communication et d'une synchronisation fréquentes entre les GPU, ce qui peut entraîner des frais généraux de communication élevés. Des connexions à grande vitesse entre les processeurs sont nécessaires pour le parallélisme tensoriel afin de minimiser les délais d'échange.

Parallélisme de pipeline

Le parallélisme de pipeline décompose le flux de calcul du modèle en plusieurs étapes, parallélisant l'exécution de ces étapes sur différents GPU de manière pipelinée. Chaque GPU traite une partie spécifique du calcul global du modèle, transmettant les résultats traités au GPU suivant pour d'autres calculs. Cette approche réduit le temps de formation global et est particulièrement bénéfique pour les modèles comportant des flux de calcul complexes et de multiples étapes consécutives, mais elle nécessite une gestion minutieuse du pipeline afin d'éviter de créer des décrochages trop importants, où certains processeurs peuvent interrompre leur travail en attendant les résultats de calculs dépendants. Parfois, ces trois tactiques parallèles sont couplées pour améliorer le processus de formation.

Trois solutions traditionnelles pour soutenir le fonctionnement de l'AIGC

Dans les solutions traditionnelles, il existe trois solutions courantes pour supporter le fonctionnement de l'AIGC : InfiniBand, RDMA et les switchs de trames.

Réseau InfiniBand

Le réseau InfiniBand est une technologie d'interconnexion à grande vitesse utilisée dans les centres de calcul et de données à haute performance. Ses avantages sont une large bande passante, une faible latence et l'absence de congestion. Cependant, il peut être coûteux et coûte plusieurs fois plus que le réseau Ethernet traditionnel.

InfiniBand Networking

Réseau RDMA

RDMA (Remote Direct Memory Access) est un mécanisme de communication récent. Dans le schéma RDMA, les données peuvent communiquer directement avec la carte réseau, sans passer par l'unité centrale et le système d'exploitation complexe, ce qui améliore considérablement le débit des données tout en réduisant la latence. Auparavant, RDMA était principalement utilisé sur le réseau InfiniBand. Aujourd'hui, il est progressivement porté sur Ethernet. Le schéma actuel de mise en réseau grand public est basé sur le protocole RoCE v2 pour construire un réseau qui prend en charge RDMA.

En savoir plus -Guide RDMA sur Ethernet Convergé.

RDMA Networking

Switch de trames

Le switch de trames fait référence à un switch de réseau spécialement conçu pour gérer des protocoles basés sur des trames, tels qu'Ethernet. Cependant, en raison de problèmes tels que l'évolutivité limitée, la consommation d'énergie élevée des dispositifs et les domaines de défaillance étendus, cette technique ne convient qu'au déploiement de grappes d'ordinateurs d'IA à petite échelle.

Nouvelle génération du réseau AIGC : Technologie DDC

En raison des goulots d'étranglement de la performance de l'Ethernet traditionnel, les approches conventionnelles souffrent toujours de pertes de performance telles que la congestion et la perte de paquets, et ont une évolutivité insuffisante. En réponse à ces limitations, une nouvelle solution connue sous le nom de DDC (Distributed Disaggregated Chassis) a vu le jour. Le DDC déconstruit le switch de trame conventionnel, ce qui améliore son évolutivité et permet d'adapter l'échelle du réseau à la taille de la grappe d'IA.

Le DDC répond non seulement aux exigences du réseau pour la formation de modèles d'IA à grande échelle en termes d'échelle et de débit de la bande passante, mais il aborde également d'autres aspects cruciaux de l'exploitation du réseau. Cependant, le fonctionnement du réseau ne se limite pas à ces deux aspects, il doit également être optimisé en termes de latence, d'équilibrage de la charge, d'efficacité de la gestion, etc. Pour relever ces défis, le DDC intègre les stratégies techniques suivantes :

La technologie de transfert VOQ+Cell permet de réduire la perte de paquets

Dans les scénarios où le réseau connaît des rafales de trafic, cela peut entraîner un traitement lent au niveau du récepteur, ce qui se traduit par une congestion et une perte de paquets. Le système DDC utilise le mécanisme de transfert VOQ+Cell, qui offre une solution robuste. Penchons-nous sur le processus spécifique :

L'expéditeur classe et stocke les paquets dans des files d'attente virtuelles (VOQ) après les avoir reçus. Le point de connexion du réseau (NCP) vérifie la capacité de la mémoire tampon avant de segmenter et d'équilibrer dynamiquement la charge. En cas de limitation temporaire du traitement, les paquets sont stockés dans les VOQ, ce qui améliore la stabilité de la communication et l'utilisation de la bande passante.

VOQ+Cell

 

Le déploiement à un seul saut du PFC permet d'éviter tout blocage

Les réseaux RDMA sans perte utilisent la technologie PFC (Priority Flow Control) pour le contrôle du trafic, ce qui permet de créer plusieurs canaux virtuels pour les liaisons Ethernet avec des priorités assignées. Toutefois, la mise en œuvre de la technologie PFC n'est pas sans poser de problèmes, notamment en ce qui concerne les blocages.

PFC Single-Hop Deployment

Dans le contexte du réseau DDC, un avantage distinctif découle du fait que tous les points de connexion du réseau (NCP) et les fonctions de communication du réseau (NCF) sont considérés comme des entités cohésives, ce qui élimine le besoin de switchs à plusieurs niveaux. Par conséquent, l'architecture DDC contourne efficacement le problème de blocage associé à la PFC, garantissant un fonctionnement continu et ininterrompu du réseau.

NCFs

 

Le système d'exploitation distribué améliore la fiabilité

Dans l'architecture DDC, la fonction de gestion est centralisée sous le contrôle de la carte de contrôle du réseau (NCC). Toutefois, ce contrôle centralisé présente le risque potentiel d'un point de défaillance unique. Pour atténuer ce problème, le DDC incorpore un système d'exploitation distribué, permettant des capacités de gestion individuelles pour chaque point de connexion réseau (NCP) et fonction de communication réseau (NCF). Cette approche distribuée comprend des plans de contrôle et de gestion indépendants qui améliorent la fiabilité du système et simplifient les processus de déploiement.

Conclusion

DDC répond efficacement aux exigences du réseau associées à la formation de modèles d'IA à grande échelle grâce à ses stratégies techniques distinctives. En outre, il optimise méticuleusement de nombreux aspects afin de garantir la stabilité et l'efficacité du réseau dans des scénarios divers et complexes.

Cela pourrait également vous intéresser

Connaissances
Connaissances
Connaissances
See profile for Migelle.
Migelle
Switch PoE, PoE+ ou PoE++ : Lequel choisir ?
25 août, 2021
47.1k
Connaissances
See profile for Sheldon.
Sheldon
Quelle est la différence entre LACP et PAGP ?
29 déc, 2021
16.7k
Connaissances
See profile for Migelle.
Migelle
Switch PoE actif ou passif : lequel choisir ?
28 févr, 2022
19.8k
Connaissances
See profile for Vincent.
Vincent
Comprendre le transceiver bidirectionnel BiDi
05 janv, 2022
9.3k
Connaissances
See profile for Moris.
Moris
Câbles à fibre optique Simplex ou Duplex
25 nov, 2018
17.7k
Connaissances
See profile for Sheldon.
Sheldon
Quelle est la différence entre RIP et OSPF ?
10 juin, 2021
22.8k