Français

InfiniBand ou RoCE : Comment Choisir un Réseau pour le Centre de Données ?

Mis à jour depuis le 26 août, 2024 by
158

Ces dernières années, HPC a fait des progrès considérables, alimentant un large éventail d'applications telles que le traitement du langage naturel, la vision par ordinateur, les véhicules autonomes, les assistants virtuels, les systèmes de recommandation et les diagnostics médicaux. À mesure que les applications de HPC évoluent, les centres de données sont confrontés à une demande croissante de réseaux à faible latence et à large bande passante, capables de gérer efficacement des charges de travail complexes.

Introduction aux Réseaux InfiniBand

Le réseau InfiniBand facilite le transfert de données par l'intermédiaire d'adaptateurs ou de commutateurs InfiniBand. Les principaux composants sont le gestionnaire de sous-réseau (SM), les cartes réseau InfiniBand, les commutateurs InfiniBand et les câbles InfiniBand.

NVIDIA est un des principaux fabricants de cartes réseau InfiniBand, y compris les cartes HDR à 200 Gbps qui évoluent rapidement et les cartes NDR à 400 Gbps actuellement disponibles sur le marché.

Infiniband

Infiniband

Les switchs InfiniBand n'exécutent aucun protocole de routage, et la table de transfert de l'ensemble du réseau est calculée et distribuée par le gestionnaire de sous-réseau centralisé. Outre la table de transfert, le gestionnaire de sous-réseau est chargé de configurer certains aspects du sous-réseau InfiniBand, tels que le partitionnement et la qualité de service (QoS). Pour établir des connexions entre les switchs et entre les switchs et les cartes réseau, les réseaux InfiniBand nécessitent des câbles et des modules optiques dédiés.

FS est devenu un partenaire Elite de NVIDA depuis 2022. Nous fournissons une gamme complète de produits originaux basés sur les solutions de réseau sans perte Infiniband. Les switchs Infiniband de FS peuvent gérer un débit de commutation agrégé de 16 To/s et une latence de commutation inférieure à 130 ns. Les adaptateurs Infiniband de FS prennent en charge les vitesses InfiniBand NDR, NDR200, HDR, HDR100, EDR, FDR et SDR. Les émetteurs-récepteurs IB de FS peuvent répondre à des besoins de connectivité sur des distances allant de 0,5 m à 2 km et offrent une assistance technique gratuite. Avec un service client de qualité supérieure et des produits qui réduisent les coûts et la complexité tout en offrant des performances exceptionnelles aux grappes de serveurs, FS est votre meilleur choix.

Caractéristiques des Solutions de Réseau InfiniBand

Réseau Natif sans Perte

Les réseaux InfiniBand utilisent un mécanisme de signalisation basé sur crédit pour prévenir de manière inhérente le débordement de la mémoire tampon et la perte de paquets. Avant de lancer la transmission d'un paquet, l'expéditeur s'assure que le destinataire dispose de suffisamment de crédits pour accueillir la quantité de paquets correspondante. Chaque liaison du réseau InfiniBand est équipée d'une mémoire tampon prédéfinie. La transmission des données à partir de l'émetteur est limitée par la taille de la mémoire tampon disponible à la réception. Une fois la transmission terminée, le destinataire libère la mémoire tampon, en mettant constamment à jour la taille de la mémoire tampon disponible et en la retransmettant à l'expéditeur. Ce mécanisme de contrôle de flux au niveau de la liaison garantit que l'expéditeur ne submerge jamais le réseau avec des données excessives, évitant ainsi tout débordement de la mémoire tampon et toute perte de paquets.

Infiniband

Capacité d'Extension de la Carte Réseau

Le routage adaptatif d'InfiniBand repose sur un routage dynamique par paquet, garantissant une utilisation optimale du réseau dans les déploiements étendus. Parmi les exemples notables de grands clusters de GPU sur des réseaux InfiniBand, on peut citer ceux de Baidu AI Cloud et de Microsoft Azure.

Actuellement, plusieurs grands fournisseurs proposent des solutions de réseau InfiniBand et des équipements connexes sur le marché. NVIDIA domine ce secteur avec une part de marché supérieure à 70 %. Les autres fournisseurs importants sont les suivants :

  • Société Intel : Fournit une gamme de produits et de solutions pour le réseau InfiniBand.

  • Systèmes Cisco : Un célèbre fabricant d'équipements de réseau qui propose des commutateurs InfiniBand et des produits connexes.

  • Hewlett Packard Enterprise (HPE) : Entreprise informatique de premier plan proposant diverses solutions de réseau InfiniBand, notamment des adaptateurs, des commutateurs et des serveurs.

Ces fournisseurs proposent des produits et des solutions adaptés aux diverses exigences des utilisateurs, qui permettent de déployer des réseaux InfiniBand à différentes échelles et dans différents scénarios d'application.

Introduction aux Réseaux RoCE v2

Alors qu'un réseau InfiniBand repose sur un système géré de manière centralisée avec un gestionnaire de sous-réseau (SM), un réseau RoCE v2 fonctionne comme un réseau entièrement distribué, comprenant des cartes d'interface réseau et des commutateurs compatibles RoCEv2, généralement organisés dans une architecture à deux niveaux.

Infiniband

Plusieurs fabricants proposent des cartes réseau compatibles RoCE, les principaux fournisseurs étant NVIDIA, Intel et Broadcom. Les cartes PCIe constituent la forme prédominante des cartes réseau pour serveurs de centres de données. Les cartes RDMA sont généralement dotées d'une vitesse PHY de port commençant à 50 Gbps, et les cartes réseau commerciales actuellement disponibles peuvent atteindre des vitesses de port unique allant jusqu'à 400 Gbps.

Infiniband

La plupart des commutateurs de centres de données prennent actuellement en charge la technologie de contrôle de flux RDMA qui, associée à des cartes réseau compatibles RoCE, facilite la communication RDMA de bout en bout. Les principaux fournisseurs mondiaux de commutateurs pour centres de données, tels que Cisco, Hewlett Packard Enterprise (HPE) et Arista, proposent des solutions de commutateurs pour centres de données fiables et performantes afin de répondre aux exigences des centres de données à grande échelle. Ces entreprises possèdent une grande expertise en matière de technologie de réseau, d'optimisation des performances et d'évolutivité, ce qui leur a valu d'être largement reconnues et adoptées dans le monde entier.

Le cœur des commutateurs haute performance réside dans les puces de transmission qu'ils utilisent. Sur le marché actuel, les puces de la série Tomahawk de Broadcom sont largement utilisées comme puces de transfert commerciales. Parmi elles, les puces de la série Tomahawk3 sont prédominantes dans les commutateurs actuels, avec une augmentation progressive des commutateurs prenant en charge les puces plus récentes de la série Tomahawk4.

Infiniband

RoCE v2 fonctionne sur Ethernet, ce qui permet d'utiliser à la fois des fibres optiques Ethernet traditionnelles et des modules optiques.

Caractéristiques de la Solution Réseau ROCE v2

Par rapport à InfiniBand, RoCE présente les avantages d'une polyvalence supérieure et d'un coût relativement faible. Il ne sert pas uniquement à construire des réseaux RDMA à haute performance, mais trouve également son utilité dans les réseaux Ethernet traditionnels. Cependant, la configuration de paramètres tels que Headroom, PFC (Priority-based Flow Control) et ECN (Explicit Congestion Notification) sur les commutateurs peut s'avérer complexe. Dans les déploiements étendus, en particulier ceux qui comportent de nombreuses cartes réseau, le débit global des réseaux RoCE peut être légèrement inférieur à celui des réseaux InfiniBand.

Plusieurs fournisseurs de commutateurs prennent en charge RoCE, et actuellement, la série de cartes réseau ConnectX de NVIDIA détient une part de marché substantielle en termes de compatibilité RoCE.

InfiniBand vs. RoCE v2

D'un point de vue technique, InfiniBand intègre diverses technologies visant à améliorer les performances de transmission du réseau, à réduire le temps de reprise sur panne, à améliorer l'évolutivité et à simplifier la complexité opérationnelle.

Infiniband

Dans les scénarios commerciaux pratiques, RoCEv2 est une bonne solution, tandis qu'InfiniBand est une excellente solution.

En ce qui concerne les performances commerciales : InfiniBand présente un avantage en termes de performances commerciales au niveau des applications en raison de sa latence de bout en bout inférieure à celle de RoCEv2. Toutefois, les performances de RoCEv2 sont également capables de répondre aux exigences de performances commerciales de la majorité des scénarios d'informatique intelligente.

Infiniband

En ce qui concerne l'échelle de l'entreprise : InfiniBand peut prendre en charge des grappes de GPU avec des dizaines de milliers de cartes tout en maintenant les performances globales sans dégradation. Il existe un nombre important de cas d'utilisation commerciale dans l'industrie. Les réseaux RoCEv2 peuvent prendre en charge des grappes de milliers de cartes sans dégradation significative des performances globales du réseau.

En ce qui concerne les opérations commerciales et la maintenance : InfiniBand fait preuve d'une plus grande maturité que RoCEv2, en offrant des fonctionnalités telles que l'isolation multi-tenant et des capacités de diagnostic opérationnel.

En ce qui concerne les coûts des entreprises : InfiniBand est plus coûteux que RoCEv2, principalement en raison du coût élevé des commutateurs InfiniBand par rapport aux commutateurs Ethernet.

En ce qui concerne les fournisseurs commerciaux: NVIDIA est le principal fournisseur pour InfiniBand, tandis qu'il existe plusieurs fournisseurs pour RoCEv2.

Conclusion

En résumé, dans le cadre du processus complexe de sélection des technologies de réseau pour les centres de calcul intelligents, InfiniBand s'impose comme la solution préférée, offrant des avantages substantiels à l'environnement informatique.

InfiniBand fait constamment preuve de performances et de fiabilité exceptionnelles, en particulier dans les environnements informatiques à haute performance. Grâce à l'adoption d'InfiniBand, les centres de calcul intelligents peuvent bénéficier de capacités de transmission de données à large bande passante et à faible latence, ce qui favorise l'efficacité des calculs et du traitement des données. Cela se traduit à son tour par la fourniture de services et d'expériences utilisateur exceptionnels. À l'avenir, les centres de calcul intelligents poursuivront leur analyse et l'adoption de technologies de réseau avancées, ce qui permettra d'améliorer constamment les capacités de calcul et de faire progresser les recherches scientifiques et l'innovation.

Cela pourrait également vous intéresser

Connaissances
Connaissances
See profile for Sheldon.
Sheldon
Qu'est-ce qu'un Port SFP ?
27 sept, 2024
5.4k
Connaissances
Connaissances
See profile for Migelle.
Migelle
Switch PoE, PoE+ ou PoE++ : Lequel choisir ?
25 août, 2021
52.3k
Connaissances
See profile for Sheldon.
Sheldon
Quelle est la différence entre LACP et PAGP ?
29 déc, 2021
19.1k
Connaissances
See profile for Migelle.
Migelle
Switch PoE actif ou passif : lequel choisir ?
28 févr, 2022
21.6k
Connaissances
See profile for Vincent.
Vincent
Comprendre le transceiver bidirectionnel BiDi
05 janv, 2022
10.7k
Connaissances
See profile for Moris.
Moris
Câbles à fibre optique Simplex ou Duplex
25 nov, 2018
19.7k