Français

RDMA Améliore les Performances des Grappes d'Entreprises

Mis à jour depuis le 28 déc, 2023 by
180

Sous l'impulsion de la numérisation des entreprises, une multitude de nouvelles applications apparaissent et sont mises en œuvre en permanence. Les données devenant une ressource essentielle pour les entreprises, elles entraînent une augmentation de la demande de calcul haute performance, d'analyse de données massives et de diverses applications de stockage. Les protocoles traditionnels de transmission de données tels que TCP/UDP se heurtent à de nombreux goulets d'étranglement lorsqu'il s'agit de s'adapter à ces nouvelles exigences.

Développement d'Ecosystème et Avantages Technologiques de RoCE

RDMA (Remote Direct Memory Access) est une technologie de communication réseau à haute performance, qui constitue un élément fondamental de la norme du réseau InfiniBand. DMA (Direct memory Access) ou accès direct à la mémoire, implique un accès direct des périphériques à la mémoire de l'hôte sans intervention de l'unité centrale. La technologie RDMA facilite l'accès direct aux données de la mémoire via l'interface réseau, en contournant le noyau du système d'exploitation. Cela permet une communication réseau efficace, à faible latence et à haut débit, particulièrement adaptée aux grappes informatiques à forte densité de calcul parallèle.


En optimisant la couche de transport et en exploitant les capacités des cartes d'interface réseau, RDMA permet aux applications de mieux utiliser les ressources des liaisons réseau. Initialement mis en place sur les réseaux de transport InfiniBand, le RDMA s'est étendu à l'Ethernet traditionnel pour répondre à la demande croissante. La technologie RDMA basée sur Ethernet comprend iWARP et RoCE, RoCE étant subdivisé en RoCEv1 et RoCEv2. Contrairement à InfiniBand, qui est très coûteux, RoCE et iWARP présentent des coûts matériels nettement inférieurs.


Lorsque RDMA fonctionne sur des réseaux Ethernet, il est connu sous le nom de RoCE (RDMA over Converged Ethernet). Actuellement, la solution de mise en réseau la plus répandue pour les réseaux à haute performance repose sur le protocole RoCE v2 (RDMA over Converged Ethernet). Ce protocole converge Ethernet et RDMA et est largement utilisé dans divers scénarios de déploiement au sein des réseaux Ethernet..

socket-vs-rdma

Contrairement à la méthodologie TCP/IP, RDMA utilise les technologies Kernel Bypass et Zero Copy pour réduire la latence, diminuer l'utilisation du processeur, atténuer les goulets d'étranglement de la bande passante de la mémoire et atteindre une haute utilisation de la bande passante. RDMA introduit un canal basé sur l'E/S, permettant à une application d'accéder directement à la mémoire virtuelle distante pour la lecture et l'écriture par l'intermédiaire de dispositifs RDMA.

tcp-ip-vs-rdma-roce

 

La technologie RDMA établit un circuit de données dédié entre les applications et le réseau, en contournant le noyau (kernel) du système. En optimisant ce circuit de données, les ressources de l'unité centrale pour la transmission des données peuvent être réduites à 0 %, ce qui permet de tirer parti des hautes performances offertes par les puces ASIC. RDMA transfère efficacement les données directement dans la zone de stockage de l'ordinateur via le réseau, transportant rapidement les données d'un système à la mémoire d'un autre sans impact sur le système d'exploitation, minimisant ainsi la demande de puissance de calcul.

Cela permet de supprimer la surcharge associée à la copie de la mémoire externe et au changement de contexte, libérant ainsi la bande passante de la mémoire et les cycles de l'unité centrale pour améliorer les performances du système d'application et l'efficacité globale de la grappe d'entreprises. La technologie RDMA a été largement adoptée dans les centres de calcul intensif et les entreprises Internet, établissant ainsi un écosystème application-réseau mature. Son intégration dans les centres de données à grande échelle des entreprises dans le cadre de ce projet marque une nouvelle étape dans le développement de l'écosystème technologique.

 

Améliorer l'Efficacité des Applications HPC avec GPU Direct-RDMA

Les réseaux TCP traditionnels s'appuient fortement sur le traitement du CPU pour la gestion des paquets, et peinent souvent à exploiter pleinement la bande passante disponible.


La technologie RDMA va au-delà de la transmission réseau haute performance des données de l'espace utilisateur dans la mémoire du processeur ; elle facilite également les transferts de GPU au sein des clusters de GPU couvrant plusieurs serveurs. C'est là qu'entre en jeu la technologie GPU Direct, un composant essentiel pour l'optimisation des performances HPC. Compte tenu de la complexité croissante des modèles d'apprentissage profond et de l'explosion du volume de données de calcul, les machines individuelles ne suffisent plus à répondre aux exigences de calcul. L'entraînement distribué, impliquant plusieurs machines et GPU, est devenu impératif. Dans ce contexte, la communication entre plusieurs machines devient une mesure de performance critique pour l'entraînement distribué, et la technologie RDMA de GPUDirect s'avère déterminante pour accélérer la communication des GPU entre les machines.


➢ GPU Direct RDMA : en s'appuyant sur la capacité RoCE des cartes réseau, cette technologie permet l'échange de données mémoire à grande vitesse entre les GPU à travers les nœuds de serveurs au sein d'un cluster GPU.


En termes de conception et de mise en œuvre du réseau, NVIDIA optimise les performances des clusters de GPU en prenant en charge la fonctionnalité GPU Direct RDMA. La mise en œuvre technique de GPU Direct RDMA est expliquée dans le schéma ci-dessous.

gpu-direct-rdma

Dans le domaine de la mise en réseau des clusters de GPU les exigences élevées en matière de latence du réseau et de bande passante sont au premier plan. La transmission réseau traditionnelle a parfois limité les capacités de traitement parallèle des GPU, ce qui entraînait un manque d'efficacité des ressources. La voie conventionnelle pour la transmission de données à grande largeur de bande nécessite souvent l'implication de la mémoire de l'unité centrale, ce qui introduit des goulets d'étranglement liés à la fois aux opérations de lecture/écriture de la mémoire et à la charge de l'unité centrale lors de la communication entre plusieurs nœuds du GPU. Pour relever ces défis, la technologie GPU Direct RDMA adopte une approche directe en exposant le périphérique de la carte réseau au GPU, facilitant ainsi l'accès direct à distance entre les espaces mémoire du GPU. Cette approche innovante optimise de manière significative la bande passante et la latence, améliorant ainsi l'efficacité des opérations des clusters de GPU.

 

Solution de Réseau sans Perte pour les Switchs de Centre de Données

roce-solution

 

La solution qui prend en charge le trafic RoCE sur les commutateurs est couramment appelée solution Ethernet sans perte. Cette solution complète englobe des technologies essentielles pour un fonctionnement efficace du réseau :

➢ Technologie ECN : ECN introduit un mécanisme de contrôle du trafic et de notification de la congestion de bout en bout au niveau des couches IP et transport. Elle utilise le champ DS dans l'en-tête du paquet IP pour indiquer les états de congestion le long du chemin de transmission. Les terminaux équipés du support ECN peuvent évaluer la congestion sur la base du contenu des paquets, en ajustant les méthodes de transmission pour atténuer l'escalade de la congestion. La technologie ECN rapide améliorée identifie le champ ECN des paquets de données lors de la mise en file d'attente, ce qui réduit le délai d'identification de l'ECN lors de la transmission. Cela permet aux serveurs de réception de recevoir rapidement les paquets de données marqués ECN, facilitant ainsi l'accélération de l'ajustement du taux d'envoi.


➢ Technologie PFC : PFC offre un contrôle de flux basé sur la priorité par saut. Lorsque les appareils transmettent les paquets, ils programment et transmettent les paquets en fonction de la priorité, en les affectant aux files d'attente correspondantes. Dans les cas où le taux d'envoi de paquets avec une priorité spécifique dépasse le taux de réception, ce qui entraîne une insuffisance de l'espace tampon disponible pour les données au niveau de la réception, le dispositif transmet une trame PFC PAUSE au dispositif du saut précédent. Dès réception de la trame PAUSE, l'appareil du saut précédent interrompt la transmission des paquets de cette priorité et ne reprend le trafic qu'après réception d'une trame PFC XON ou après l'écoulement d'un certain délai de vieillissement. PFC garantit que la congestion d'un type de trafic ne perturbe pas l'acheminement normal des autres types de trafic, en maintenant un fonctionnement sans interférence pour les différents types de paquets sur la même liaison.

 

Optimisation de la Sélection des Produits RDMA et RoCE

En conclusion, en exploitant les enseignements pratiques tirés du déploiement de l'Ethernet sans perte, NVIDIA a adopté ECN comme technologie centrale de contrôle de la congestion. Grâce à l'accélération matérielle de l'ECN rapide, le système garantit des réponses rapides pour un contrôle efficace des flux. Complétée par l'ETS et l'optimisation ingénieuse du cache physique, la planification des ressources fait l'objet d'un réglage fin adapté au modèle de trafic unique. D'un autre côté, l'inclusion de la technologie PFC introduit des défis potentiels avec le risque imminent de blocage du réseau. Les évaluations comparatives soulignent l'efficacité limitée des mécanismes de contrôle de flux PFC dans l'amélioration de la fiabilité du réseau, la gestion des pertes de paquets dues aux congestions, et révèlent simultanément les risques inhérents et les goulets d'étranglement en matière de performances.


RDMA apparaît comme une solution primordiale pour obtenir une communication réseau optimale de bout en bout, en privilégiant l'accélération des transferts de données à distance. Cela implique un système sophistiqué de contournement du noyau du côté de l'hôte, de délestage de la couche de transport sur la carte réseau et de contrôle du flux de congestion du côté du réseau. Les résultats sont tangibles sous la forme d'une faible latence, d'un débit élevé et d'une surcharge minimale de l'unité centrale. Néanmoins, la mise en œuvre actuelle de RDMA est confrontée à des contraintes, telles que les limites d'extensibilité et les complexités de configuration et de modification.


Avec l'évolution de la technologie, il est essentiel de naviguer dans un environnement en constante évolution en ce qui concerne la sélection des produits RDMA et RoCE, en gardant un œil attentif sur les progrès et en tenant compte des limites pour une intégration transparente et des solutions de réseau à haute performance durables.


Lors de la mise en place de réseaux RDMA haute performance, outre les adaptateurs RDMA et les serveurs robustes requis, les composants critiques tels que les modules optiques à grande vitesse, les switchs et les câbles optiques font partie intégrante de la réussite. Dans ce contexte, le choix des produits et solutions fiables de transmission de données à haut débit de FS est tout à fait recommandé. En tant que principal fournisseur de solutions de transmission de données à haut débit, FS propose une gamme variée de produits de premier ordre, y compris des switchs à haute performance, des modules optiques 200/400/800G, des cartes de réseau intelligentes, et plus encore, précisément conçus pour répondre aux demandes exigeantes de transmission de données à haut débit et à faible latence.


Les produits et solutions de FS sont largement déployés dans divers secteurs, répondant de manière transparente aux exigences du calcul scientifique à grande échelle, de l'analyse de données en temps réel et des conditions strictes de faible latence des transactions financières. FS est le choix privilégié pour atteindre un équilibre harmonieux entre la rentabilité et l'efficacité opérationnelle lors du déploiement de réseaux à haute performance.

Cela pourrait également vous intéresser

Connaissances
Connaissances
Connaissances
See profile for Migelle.
Migelle
Switch PoE, PoE+ ou PoE++ : Lequel choisir ?
25 août, 2021
49.0k
Connaissances
See profile for Sheldon.
Sheldon
Quelle est la différence entre LACP et PAGP ?
29 déc, 2021
17.7k
Connaissances
See profile for Migelle.
Migelle
Switch PoE actif ou passif : lequel choisir ?
28 févr, 2022
20.6k
Connaissances
See profile for Vincent.
Vincent
Comprendre le transceiver bidirectionnel BiDi
05 janv, 2022
9.9k
Connaissances
See profile for Moris.
Moris
Câbles à fibre optique Simplex ou Duplex
25 nov, 2018
18.4k
Connaissances
See profile for Sheldon.
Sheldon
Quelle est la différence entre RIP et OSPF ?
10 juin, 2021
24.0k