Explorer les Switchs Idéaux pour l'Intelligence Artificielle

Mis à jour depuis le 18 juin, 2024 by

 122

Avec le développement rapide et l'application généralisée de l'intelligence artificielle (IA), les exigences élevées de l'IA en matière de performance des réseaux sont devenues un défi crucial dans le progrès technologique d'aujourd'hui. Il est essentiel de choisir des switchs adaptés aux applications d'IA. Cet article aborde les défis que l'IA pose aux performances du réseau et présente des solutions de switchs adaptées à l'intelligence artificielle.

Les défis de l'IA dans la performance des réseaux

Les applications d'IA nécessitent des performances réseau exceptionnelles. Voici les défis que l'IA pose à la performance du réseau.

Débit et latence

Tout d'abord, un débit élevé et une faible latence sont des exigences fondamentales pour les tâches d'intelligence artificielle. La transmission rapide des données et la faible latence sont cruciales en raison de la quantité importante de données impliquées dans les tâches d'intelligence artificielle. Deuxièmement, les applications d'intelligence artificielle exigent une fiabilité et une stabilité dans la précision des données, ce qui fait de ces qualités des considérations cruciales dans la conception du réseau.

Limites des protocoles de réseau traditionnels

Les protocoles TCP/IP traditionnels présentent certaines limites lorsqu'ils sont confrontés aux exigences des applications d'intelligence artificielle. Premièrement, les protocoles TCP/IP introduisent des retards importants dans la transmission des données en raison des multiples switchs de contexte et de l'implication de l'unité centrale dans l'encapsulation des paquets. Deuxièmement, les réseaux TCP/IP font peser une lourde charge sur les unités centrales hôtes, en grande partie à cause du coefficient élevé de corrélation entre la largeur de bande du réseau et l'utilisation de l'unité centrale. En outre, l'architecture traditionnelle du réseau à trois couches souffre d'un gaspillage de la bande passante et de limitations dans la transmission et le traitement des données à grande échelle, ce qui nécessite des solutions alternatives mieux adaptées aux applications de l'intelligence artificielle.

Architecture des centres de données

L'architecture traditionnelle du réseau à trois couches (couche d'accès, couche d'agrégation et couche centrale) présente certains inconvénients et limitations en ce qui concerne les applications d'intelligence artificielle. Avec le développement de l'informatique en nuage, ces inconvénients sont devenus plus évidents, notamment le gaspillage de la bande passante, l'étendue du domaine de défaillance et la longueur du temps de latence.

Pour optimiser les performances du réseau, l'architecture « leaf-spine » s'est imposée comme un choix supérieur. Cette architecture dirige le trafic réseau directement vers l'appareil cible, réduisant ainsi le gaspillage de la bande passante et offrant une latence plus faible et une meilleure évolutivité. L'optimisation de l'architecture du réseau peut répondre aux exigences élevées des applications d'IA en matière de performances du réseau et améliorer l'efficacité et les performances des applications d'IA.

Data Center Architecture

Application de la technologie RDMA à l'IA

La technologie RDMA (Remote Direct Memory Access) est apparue pour répondre aux exigences de performance des réseaux des applications d'intelligence artificielle. RDMA permet le transfert direct de données entre la mémoire de l'hôte et les périphériques du réseau, en contournant l'unité centrale, ce qui réduit la latence et allège la charge de l'unité centrale. Dans les solutions RDMA basées sur Ethernet, des technologies telles qu'Infiniband, RoCE et iWARP sont devenues des choix de premier plan. Parmi elles, Infiniband est spécialement conçue pour le RDMA et garantit une transmission fiable au niveau matériel. Elle dispose d'une technologie avancée, mais son coût est élevé. RoCE et iWARP sont tous deux basés sur la technologie Ethernet RDMA. Ces technologies permettent un débit élevé, une faible latence et une transmission fiable, offrant ainsi des performances réseau plus efficaces pour les applications d'intelligence artificielle.

Des switchs idéaux pour l'intelligence artificielle

La sélection de switchs adaptés à l'IA nécessite la prise en compte de multiples facteurs. Tout d'abord, les switchs doivent prendre en charge la technologie RDMA pour répondre aux exigences de débit élevé et de faible latence. Deuxièmement, les switchs doivent posséder l'évolutivité et la flexibilité nécessaires pour s'adapter à la charge de travail croissante de l'IA. Il existe différentes options disponibles sur le marché, notamment des solutions de switchs d'IA personnalisées fournies par des fabricants tels que NVIDIA.

Les plates-formes NVIDIA Spectrum et Quantum sont déployées avec des switchs Ethernet et InfiniBand. Les plateformes Spectrum et Quantum ciblent différents scénarios d'application. Spectrum-X est conçu pour l'IA générative, optimisant les limites des switchs Ethernet traditionnels. Dans la vision de NVIDIA, les scénarios d'application de l'IA peuvent être grossièrement divisés en nuage d'IA et usine d'IA. Dans le cloud d'IA, les switchs Ethernet traditionnels et Spectrum-X Ethernet peuvent être utilisés, tandis que dans l'usine d'IA, la solution NVLink+InfiniBand doit être utilisée. Pour plus d'informations sur NVLink, veuillez vous référer à la section Aperçu de NVIDIA NVLink.

Le tableau suivant présente les switchs NVIDIA d'origine fournis par FS.

Types	Produit	Caractéristiques
Switch Ethernet	MSN2700-CS2RC	32x 100Gb QSFP28, Spine Switch, MLAG, PTP
	MSN4410-WS2FC	24x 100Gb QSFP28-DD, 8x 400Gb QSFP-DD, Spine Switch, RoCE, PTP
	MSN4410-WS2RC	24x 100Gb QSFP28-DD, 8x 400Gb QSFP-DD, Spine Switch, RoCE, PTP
	MSN4700-WS2FC	32x 400Gb QSFP-DD, Spine Switch, RoCE, PTP
	MSN4700-WS2RC	32x 400Gb QSFP-DD, Spine Switch, MLAG, PTP
	MSN2410-CB2FC	48x 25Gb SFP28, 8x 100Gb QSFP28, Leaf Switch, MLAG, PTP
	MSN2700-CS2FC	32 x 100Gb QSFP28, Spine Switch, MLAG, PTP
Switch InfiniBand	MQM9790-NS2F	64X NDR 400G, 32 OSFP Ports, HPC/AI, QuantumTM-2, Non Géré
	MQM8790-HS2F	40X HDR QSFP56, HPC/AI, QuantumTM, Non Géré
	MQM8700-HS2F	40x HDR QSFP56, HPC/AI, QuantumTM, Géré
	MQM9700-NS2F	64 X NDR 400G, 32 OSFP Ports, HPC/AI, QuantumTM-2, Géré

Conclusion

Les applications d'IA posent des exigences élevées en matière de performances réseau, et les switchs, en tant que composants centraux du réseau, sont essentiels pour répondre à ces exigences. Cet article a abordé les défis que l'IA pose aux performances du réseau et présenté des solutions de switchs adaptées à l'intelligence artificielle. L'adoption de la technologie RDMA et l'optimisation de l'architecture réseau permettent d'obtenir un débit élevé, une faible latence et une transmission fiable, répondant ainsi aux exigences des applications d'intelligence artificielle. Le choix de switchs adaptés à l'intelligence artificielle est une étape essentielle pour améliorer les performances et l'efficacité des réseaux d'IA. À l'avenir, à mesure que la technologie de l'intelligence artificielle continuera d'évoluer, des dispositifs et des architectures de réseau innovants permettront de faire progresser les applications de l'intelligence artificielle.