Français

Analyse Approfondie des Exigences en Matière de Réseau pour les Grands Modèles d'Intelligence Artificielle

Mis à jour depuis le 03 févr, 2024 by
180

Depuis l'émergence du modèle de Deep Learning Transformers jusqu'à l'adoption généralisée de ChatGPT en 2023, un consensus s'est progressivement formé sur le fait que l'augmentation de la taille des paramètres du modèle améliore ses performances, suivant une loi d'échelle qui régit leur relation. En particulier, lorsque la taille des paramètres dépasse plusieurs centaines de milliards, les capacités de compréhension du langage, de raisonnement logique et d'analyse des problèmes des grands modèles d'IA s'améliorent rapidement.

Parallèlement, l'évolution de la taille et des performances des modèles a entraîné une modification des exigences en matière de réseau pour l'apprentissage de grands modèles d'IA par rapport aux modèles traditionnels.

Pour répondre aux exigences d'un calcul distribué efficace dans les grappes de formation à grande échelle, les processus de formation de grands modèles d'IA impliquent généralement divers modes de calcul parallèle, tels que le parallélisme de données, le parallélisme de pipeline et le parallélisme de tenseur. Dans ces modes parallèles, les opérations de communication collective deviennent essentielles entre plusieurs dispositifs informatiques. En outre, le processus de formation adopte souvent un mode synchrone, nécessitant l'achèvement des opérations de communication collective entre plusieurs machines et plusieurs cartes avant de passer à l'itération ou au calcul suivant de l'apprentissage. Par conséquent, la conception d'un système efficace de mise en réseau des grappes dans les grappes d'entraînement à grande échelle des grands modèles d'IA est essentielle. Cette conception vise à obtenir une faible latence et un débit élevé dans la communication inter-machines, ce qui est essentiel pour réduire les frais généraux de communication lors de la synchronisation des données entre plusieurs machines et cartes. Cette optimisation contribue à améliorer le ratio de temps de calcul effectif du GPU (temps de calcul du GPU / temps d'apprentissage global), un facteur crucial dans l'amélioration de l'efficacité des grappes d'apprentissage distribuées de l'IA. L'analyse suivante se penche sur les besoins en réseau des grands modèles d'IA, en examinant des aspects tels que l'échelle, la bande passante, la latence, la stabilité et le déploiement du réseau.

Défis Liés à l'Extension des Réseaux GPU pour un Apprentissage Efficace des Modèles d'IA à Grande Échelles

Les demandes de calcul des applications d'intelligence artificielle connaissent une croissance exponentielle, avec des modèles qui s'étendent à des échelles massives. Les paramètres des modèles d'intelligence artificielle ont été multipliés par cent mille, et les grands modèles d'IA actuels affichent des tailles de paramètres allant de centaines de milliards à des billions. L'entraînement de ces modèles nécessite indéniablement une puissance de calcul considérable. En outre, les modèles de très grande taille imposent des exigences élevées en matière de mémoire. Par exemple, un modèle de 1 000 milliards de paramètres utilisant un espace de stockage de 1 octet consommerait 2 téraoctets d'espace de stockage. En outre, au cours du processus d'apprentissage, les variables intermédiaires générées par le calcul en amont, les gradients du calcul en aval et les états de l'optimiseur essentiels à la mise à jour des paramètres ont tous besoin d'être stockés. Ces variables intermédiaires augmentent continuellement au cours d'une seule itération. Par exemple, une session d'entraînement utilisant l'optimiseur Adam produit des variables intermédiaires qui atteignent plusieurs fois la taille des paramètres du modèle. Une telle consommation de mémoire implique que des dizaines, voire des centaines de GPU sont nécessaires pour stocker l'ensemble du processus d'apprentissage d'un modèle.

Toutefois, le fait de disposer d'un grand nombre de GPU ne suffit pas pour assurer l'apprentissage efficace de modèles de très grande taille. La solution pour améliorer l'efficacité de la formation réside dans l'adoption de méthodes de parallélisation appropriées. Actuellement, trois méthodes principales de parallélisation sont employées pour les modèles ultra-larges : le parallélisme de données, le parallélisme de pipeline et le parallélisme de tenseur. Les trois méthodes de parallélisation sont utilisées pour la formation de modèles dont les paramètres varient entre des centaines de milliards et des milliers de milliards. L'entraînement de modèles ultra-grands nécessite des clusters comprenant des milliers de GPU. Au départ, cela peut sembler inférieur à l'échelle d'interconnexion de dizaines de milliers de serveurs dans les centres de données en nuage. Cependant, dans la réalité, l'interconnexion de milliers de nœuds de GPU est plus difficile en raison de la nécessité de disposer de capacités de réseau et de capacités de calcul hautement adaptées. Les centres de données en nuage utilisent principalement des calculs CPU, et leurs besoins en réseau varient généralement entre 10 Gbps et 100 Gbps, en utilisant des protocoles de couche de transport TCP traditionnels. En revanche, la formation de grands modèles d'IA utilise l'apprentissage par GPU, dont la puissance de calcul est supérieure de plusieurs ordres de grandeur à celle des CPU. Par conséquent, les exigences du réseau varient de 100 Gbps à 400 Gbps, et les protocoles RDMA sont utilisés pour réduire la latence de transmission et améliorer le débit du réseau.

Plus précisément, la réalisation d'une interconnexion haute performance entre des milliers de GPU pose plusieurs défis en termes d'échelle de réseau :

  • - Les problèmes rencontrés dans les réseaux RDMA à grande échelle, tels que le blocage en tête de ligne et les tempêtes de blocage PFC.

  • - Optimisation des performances du réseau, y compris des techniques plus efficaces de contrôle de la congestion et d'équilibrage de la charge.

  • - Problèmes de connectivité des cartes réseau, car un seul hôte est soumis à des limites de performances matérielles. la façon d'établir des milliers de connexions QP RDMA

  • - Sélection de la topologie du réseau, en examinant si la structure traditionnelle Fat Tree est préférable ou si l'on peut se référer à des topologies de réseau informatique à haute performance telles que Torus et Dragonfly.

Optimisation de la Communication GPU pour un Apprentissage Efficace des Modèles d'IA à travers les Différentes Applications

Dans le contexte de l'apprentissage de modèles d'IA à grande échelle, les opérations de communication collective entre les GPU au sein d'une même machine et entre les machines génèrent un volume substantiel de données de communication. En examinant la communication GPU au sein d'une seule machine, on peut considérer des modèles d'IA avec des milliards de paramètres où les données de communication collective résultant du parallélisme du modèle peuvent atteindre l'échelle de centaines de gigaoctets. Par conséquent, l'efficacité du temps d'exécution dépend fortement de la bande passante et des modes de communication entre les GPU au sein de la machine. Les GPU au sein d'un serveur doivent prendre en charge des protocoles d'interconnexion à grande vitesse, afin d'atténuer la nécessité de copies multiples de données dans la mémoire de l'unité centrale lors de la communication entre les GPU.

Dans le contexte de l'apprentissage de modèles d'IA à grande échelle, les opérations de communication collective entre les GPU au sein d'une même machine et entre les machines génèrent un volume substantiel de données de communication. En examinant la communication entre GPU au sein d'une seule machine, on peut considérer des modèles d'IA avec des milliards de paramètres où les données de communication collective résultant du parallélisme du modèle peuvent atteindre l'échelle de centaines de gigaoctets. Par conséquent, l'efficacité du temps d'exécution dépend en grande partie de la bande passante et des modes de communication entre les GPU au sein de la machine. Les GPU au sein d'un serveur doivent prendre en charge des protocoles d'interconnexion à grande vitesse, afin d'atténuer la nécessité de copies multiples de données dans la mémoire de l'unité centrale pendant la communication entre les GPU.

En outre, les GPU sont généralement connectés à des cartes réseau via des bus PCIe, et la largeur de bande de communication du bus PCIe détermine si la largeur de bande à port unique de la carte réseau peut être pleinement utilisée. Par exemple, si l'on considère un bus PCIe 3.0 (16 voies correspondant à une bande passante unidirectionnelle de 16 Go/s), si la communication inter-machines est équipée d'une bande passante à port unique de 200 Gbps, les performances du réseau entre les machines risquent de ne pas être pleinement utilisées.

Facteurs Critiques pour l'Efficacité de l'Apprentisasage de Modèles d'IA à Grande Échelle

Le temps de latence du réseau pendant la communication de données comprend deux composantes : le temps de latence statique et le temps de latence dynamique. La latence statique englobe la latence de sérialisation des données, la latence d'acheminement des dispositifs et la latence de transmission électro-optique. Elle est déterminée par les capacités de la puce d'acheminement et la distance de transmission, et représente une valeur constante lorsque la topologie du réseau et le volume de données de communication sont fixes. Inversement, la latence dynamique a un impact significatif sur les performances du réseau, englobant la latence de mise en file d'attente dans les switchs et la latence due à la perte et à la retransmission de paquets, souvent causée par la congestion du réseau.

En illustrant l'apprenstissage d'un modèle GPT-3 avec 175 milliards de paramètres, l'analyse théorique indique que lorsque la latence dynamique augmente de 10μs à 1000μs, la proportion du temps de calcul effectif du GPU diminue de près de 10 %. Un taux de perte de paquets réseau de l'ordre de plusieurs milliers entraîne une diminution de 13 % du temps de calcul effectif du GPU, et à un taux de perte de 1 %, la proportion tombe à moins de 5 %. La réduction de la latence des communications informatiques et l'amélioration du débit du réseau sont des considérations essentielles pour tirer pleinement parti de la puissance de calcul dans l'apprentissage de modèles d'IA à grande échelle.

Au-delà de la latence, les variations du réseau introduisent une gigue de latence, ce qui a un impact sur l'efficacité de la formation. Le processus de communication collective des nœuds de calcul pendant la formation implique de multiples communications parallèles point à point (P2P). Par exemple, la communication collective Ring AllReduce entre N nœuds comprend 2*(N-1) sous-étapes de communication de données, où tous les nœuds de chaque sous-étape doivent effectuer une communication P2P en parallèle. Les fluctuations du réseau entraînent des augmentations notables du temps d'exécution du flux (FCT) pour la communication P2P entre des nœuds spécifiques. La variation du temps de communication P2P, causée par la gigue du réseau, est considérée comme le maillon faible de l'efficacité du système, ce qui se traduit par une augmentation du temps d'exécution de la sous-étape correspondante. Par conséquent, la gigue du réseau diminue l'efficacité de la communication collective, ce qui a un impact sur l'efficacité de l'apprentissage des modèles d'IA à grande échelle.

L'Importance de la Puissance de Calcul pour l'Apprentissage de Modèles d'IA à Grande Échelle

Depuis son apparition, le modèle de Deep Learning Transformers a marqué le début d'une évolution rapide des modèles à grande échelle. Au cours des cinq dernières années, la taille des modèles est passée de 61 millions à 540 milliards, soit une augmentation exponentielle de près de 10 000 fois. La puissance de calcul de la grappe joue un rôle essentiel dans la détermination de la vitesse d'apprentissage des modèles d'IA. Par exemple, l'entraînement du modèle GPT-3 sur un seul GPU V100 prendrait 335 ans, alors qu'une grappe composée de 10 000 GPU V100, idéalement dimensionnés, pourrait effectuer l'entraînement en 12 ans environ.

La fiabilité du système de réseau est fondamentale pour assurer la stabilité informatique de l'ensemble du cluster. Les défaillances du réseau peuvent avoir un impact considérable, perturbant la connectivité de nombreux nœuds de calcul en cas de défaillance d'un nœud du réseau, ce qui compromet la puissance de calcul globale du système. En outre, les fluctuations des performances du réseau peuvent affecter l'ensemble de la grappe, étant donné que le réseau est une ressource partagée, contrairement aux nœuds de calcul individuels qui sont plus facilement isolés. Les fluctuations de performance peuvent avoir un impact négatif sur l'utilisation de toutes les ressources informatiques. Ainsi, le maintien d'un réseau stable et efficace est de la plus haute importance tout au long du cycle de formation des modèles d'IA à grande échelle, ce qui présente de nouveaux défis pour les opérations du réseau.

En cas de défaillance au cours de l'apprentissage, il peut être nécessaire de procéder à un remplacement tolérant aux pannes ou à une mise à l'échelle élastique pour traiter les nœuds défectueux. Les changements de position des nœuds participants peuvent rendre les schémas de communication actuels sous-optimaux, ce qui nécessite une redistribution des tâches et une programmation afin d'améliorer l'efficacité globale de la formation. En outre, les défaillances inattendues du réseau, telles que la perte silencieuse de paquets, non seulement diminuent l'efficacité de la communication collective, mais entraînent également des interruptions de la bibliothèque de communication, ce qui se traduit par des périodes prolongées de blocage des processus de formation et a un impact significatif sur l'efficacité. Par conséquent, l'obtention d'informations précises sur le débit, la perte de paquets et d'autres paramètres du flux d'activité devient essentielle pour la détection rapide des défaillances et l'autoréparation en l'espace de quelques secondes.

Le Rôle du Déploiement Automatisé et de la Détection des Défaillances dans les Grappes d'IA à Grande Échelle

L'établissement de réseaux intelligents sans perte repose souvent sur des protocoles RDMA et des mécanismes de contrôle de la congestion, accompagnés d'un ensemble de configurations complexes et diverses. Toute mauvaise configuration de ces paramètres peut avoir un impact sur les performances du réseau et entraîner des problèmes imprévus. Les statistiques indiquent que plus de 90 % des défaillances des réseaux à haute performance proviennent d'erreurs de configuration. La cause principale de ces problèmes réside dans la multitude de paramètres de configuration des cartes réseau, en fonction des versions d'architecture, des types d'entreprises et des types de cartes réseau. Dans le contexte des grappes d'apprentissage de modèles d'IA à grande échelle, la complexité des configurations est encore accrue. Par conséquent, un déploiement et une configuration efficaces et automatisés peuvent effectivement améliorer la fiabilité et l'efficacité des systèmes de grappes de modèles à grande échelle.

Le déploiement et la configuration automatisés nécessitent la capacité de déployer des configurations en parallèle sur plusieurs machines, de sélectionner automatiquement les paramètres pertinents pour les mécanismes de contrôle de la congestion et de choisir les configurations appropriées en fonction des types de cartes de réseau et des exigences de l'entreprise.

De même, dans le cadre d'architectures et de scénarios de configuration complexes, la capacité à localiser rapidement et précisément les défaillances au cours des opérations est essentielle pour garantir l'efficacité globale de l'entreprise. La détection automatisée des défaillances facilite la localisation rapide des problèmes, l'envoi de notifications précises au personnel d'encadrement et la réduction des coûts liés à l'identification des problèmes. Elle permet d'identifier rapidement les causes profondes et de fournir les solutions correspondantes.

Choisir FS pour l'Optimisation des Réseaux de Modèles Al

L'analyse souligne les exigences spécifiques des modèles d'IA à grande échelle en ce qui concerne l'échelle, la bande passante, la stabilité, la latence et la gigue, ainsi que la capacité d'automatisation. Cependant, un fossé technologique persiste pour répondre pleinement à ces exigences avec la configuration actuelle des réseaux des centres de données.

La demande de capacités de réseau dans les modèles d'IA à grande échelle est exceptionnellement élevée, compte tenu de la taille importante de leurs paramètres et de leurs besoins complexes en matière de calcul. Des ressources informatiques et de stockage adéquates sont essentielles pour soutenir leurs processus de formation et d'inférence, tandis que la connectivité réseau à haut débit est cruciale pour une transmission et un traitement efficaces des données. FS répond à ces besoins en proposant des produits de connectivité de haute qualité adaptés aux circonstances uniques de chaque client, améliorant ainsi les performances du réseau et l'expérience de l'utilisateur.

La gamme de produits de FS s'étend au-delà des switchs et des cartes réseau et comprend des modules optiques dont les débits sont compris entre 100G et 800G, ainsi que des AOC et DAC. Ces produits facilitent la transmission efficace des données et accélèrent les processus de formation et d'inférence des modèles d'IA. Dans le cadre de l'apprentissage de l'IA à grande échelle, les modules optiques connectent des nœuds informatiques distribués qui collaborent à l'exécution de tâches de calcul complexes. Avec des attributs tels qu'une large bande passante, une faible latence et un faible taux d'erreur, ces produits accélèrent les mises à jour et l'optimisation des modèles, réduisant les délais de communication et favorisant un calcul de l'intelligence artificielle plus rapide et plus efficace.

En optant pour les produits de connectivité de FS, les réseaux des centres de données prennent en charge le déploiement et l'exploitation de modèles d'IA à grande échelle et sont donc plus performants. Pour plus d'informations, veuillez consulter le site officiel de FS.

Cela pourrait également vous intéresser

Connaissances
Connaissances
Connaissances
See profile for Migelle.
Migelle
Switch PoE, PoE+ ou PoE++ : Lequel choisir ?
25 août, 2021
47.1k
Connaissances
See profile for Sheldon.
Sheldon
Quelle est la différence entre LACP et PAGP ?
29 déc, 2021
16.7k
Connaissances
See profile for Migelle.
Migelle
Switch PoE actif ou passif : lequel choisir ?
28 févr, 2022
19.8k
Connaissances
See profile for Vincent.
Vincent
Comprendre le transceiver bidirectionnel BiDi
05 janv, 2022
9.3k
Connaissances
See profile for Moris.
Moris
Câbles à fibre optique Simplex ou Duplex
25 nov, 2018
17.6k
Connaissances
See profile for Sheldon.
Sheldon
Quelle est la différence entre RIP et OSPF ?
10 juin, 2021
22.7k