Español

Red de alta velocidad mejorada con RDMA para entrenar modelos grandes ​

Actualizado el 19 de diciembre de 2023 por
202

Comprender RDMA para redes de alta velocidad

El acceso remoto directo a la memoria (RDMA) está a la vanguardia de la tecnología de acceso a memoria de red de ultra alta velocidad, revolucionando la forma en que los programas acceden rápidamente a la memoria de los nodos informáticos remotos. El principio subyacente de su velocidad excepcional se describe vívidamente a continuación. RDMA introduce un cambio de paradigma al eliminar la necesidad de que el acceso a la red atraviese el núcleo del sistema operativo (por ejemplo, Sockets, TCP/IP). Esta derivación estratégica mitiga el consumo de tiempo de CPU asociado con las operaciones del kernel, permitiendo el acceso directo a la memoria a la tarjeta de interfaz de red (NIC), también conocida como adaptador de canal de host (HCA) en ciertos contextos.

traditional-vs-rdma

En el ámbito de las implementaciones de hardware, RDMA se manifiesta a través de tres tecnologías clave: InfiniBand, RoCE e iWARP. En particular, InfiniBand y RoCE se han convertido en las opciones predominantes, como lo reconocen los expertos de la industria a la vanguardia de los avances tecnológicos.

Unveiling InfiniBand: Pináculo de la excelencia en ancho de banda

Actualmente, el ecosistema InfiniBand abarca tecnologías convencionales de transmisión de alta velocidad de 100G y 200G. Entre ellos, Enhanced Data Rate (EDR, 100G) y High Data Rate (HDR, 200G) representan algunos términos propietarios. Vale la pena señalar que algunas marcas ahora pueden ofrecer soluciones con tarifas aún más altas. Por ejemplo, FS ha introducido una tarjeta de red de 400GB, y hay incluso módulos ópticos de 800G disponibles. La tecnología InfiniBand avanza rápidamente.

A pesar de sus capacidades excepcionales, muchos profesionales de TI suelen pasar por alto InfiniBand debido a su alto costo, lo que lo hace menos accesible para uso general. Sin embargo, dentro de los límites de los centros de supercomputación de las principales universidades e instituciones de investigación, InfiniBand emerge como un estándar casi indispensable, particularmente para respaldar tareas críticas de supercomputación.

A diferencia de los conmutadores convencionales, la red InfiniBand emplea una topología de red distintiva conocida como "Fat Tree" para facilitar una comunicación fluida entre las tarjetas de red de dos nodos informáticos cualesquiera. La estructura de Fat Tree comprende dos capas: la capa central, responsable del reenvío del tráfico y desconectado de los nodos informáticos, y la capa de acceso, que vincula diversos nodos informáticos.

El alto costo de implementar una topología Fat Tree en una red InfiniBand se debe principalmente a que, por ejemplo, en un conmutador de agregación con 36 puertos, la mitad debe conectarse a nodos informáticos y la otra mitad a conmutadores centrales de capa superior para una comunicación sin pérdidas. En particular, cada cable cuesta alrededor de 1,3 mil dólares y se requieren conexiones redundantes para una comunicación sin pérdidas.

fat-tree-topology

El dicho "obtienes lo que pagas" se aplica acertadamente a InfiniBand. Sin lugar a dudas, ofrece un ancho de banda elevado y una latencia baja incomparables. Según Wikipedia, InfiniBand cuenta con una latencia significativamente menor en comparación con Ethernet, registrando latencias de 100 nanosegundos y 230 nanosegundos, respectivamente. Este rendimiento excepcional ha posicionado a InfiniBand como una tecnología fundamental en algunas de las supercomputadoras más importantes del mundo, utilizada por gigantes de la industria como Microsoft, NVIDIA y laboratorios nacionales en los Estados Unidos.

Liberando el potencial de RoCE: una solución RDMA asequible

En el ámbito de las tecnologías de red, RoCE (RDMA sobre Ethernet convergente) surge como una alternativa rentable, particularmente en comparación con sus homólogos de alto precio como InfiniBand. Si bien no se considera económico, RoCE ofrece una opción más económica, ya que proporciona capacidades RDMA a través de Ethernet. En los últimos tiempos, RoCE ha experimentado un rápido desarrollo, ganando impulso como un sustituto viable de InfiniBand, especialmente en escenarios donde el costo de este último es un factor prohibitivo.

A pesar de su asequibilidad, lograr una red verdaderamente sin pérdidas con RoCE plantea desafíos, lo que dificulta mantener el costo general de la red por debajo del 50% de lo que incurriría con InfiniBand.

Potenciación de la formación de modelos a gran escala: GPUDirect RDMA desatada

En el ámbito del entrenamiento de modelos a gran escala, los costos de comunicación entre nodos cobran gran importancia. Una solución transformadora surge con la fusión de InfiniBand y GPU, dando lugar a una característica fundamental conocida como GPUDirect RDMA. Esta innovación facilita la comunicación directa entre GPU a través de nodos, evitando la participación de la memoria y la CPU. En pocas palabras, la intrincada danza de comunicación entre las GPU de dos nodos se desarrolla directamente a través de las tarjetas de interfaz de red InfiniBand, evitando la ruta tradicional a través de la CPU y la memoria.

GPUDirect RDMA adquiere una mayor importancia en el contexto del entrenamiento de modelos a gran escala, donde los modelos encuentran su residencia en las GPU. El proceso convencional de copiar modelos a la CPU ya exige una inversión de tiempo considerable, y transmitirlos a otros nodos a través de la CPU sólo exacerbaría el lento ritmo de transferencia de datos.

gpu-direct-rdma

Optimización de redes de modelos grandes: Configuración estratégica

En el mundo de los modelos grandes, lograr un rendimiento óptimo depende de una configuración cuidadosa, especialmente al emparejar una GPU y una tarjeta de red InfiniBand. Aquí presentamos a nuestro socio: el sistema DGX de NVIDIA, que aboga por un emparejamiento uno a uno de GPU y tarjeta de red InfiniBand y establece un punto de referencia. En este paradigma, un nodo informático estándar puede acomodar nueve NIC InfiniBand. De ellos, uno está dedicado al sistema de almacenamiento, mientras que los ocho restantes están asignados a tarjetas GPU individuales.

Esta configuración, si bien es óptima, conlleva un costo considerable, lo que lleva a la exploración de alternativas más económicas. Un compromiso ventajoso implica adoptar una proporción de 1 tarjeta de red InfiniBand por 4 tarjetas GPU.

En escenarios prácticos, tanto la GPU como InfiniBand encuentran sus puntos de conexión en un conmutador PCI-E, que normalmente admite dos GPU por conmutador. El escenario ideal se desarrolla cuando a cada GPU se le asigna meticulosamente su tarjeta de red InfiniBand dedicada. Sin embargo, surgen desafíos cuando dos GPU comparten una única tarjeta de red InfiniBand y un conmutador PCI-E. Esta configuración introduce contención entre las GPU, que compiten por el acceso a la tarjeta de red InfiniBand compartida.

PCI-E switch-connection

La cantidad de tarjetas de red InfiniBand se convierte en un determinante crucial, que impacta directamente en los niveles de contención y, en consecuencia, en la eficiencia de la comunicación entre nodos. El diagrama adjunto ilustra vívidamente esta correlación. En particular, con una sola tarjeta de red de 100Gbps, el ancho de banda es de 12GB/s, y los aumentos posteriores del ancho de banda se producen casi linealmente a medida que aumenta el número de tarjetas de red. Imagine el potencial transformador de una configuración con ocho tarjetas H100 combinadas con ocho tarjetas InfiniBand NDR de 400G, lo que produce una velocidad de transferencia de datos sorprendentemente alta.

nvidia-ib-bw

Una tarjeta de red por GPU es la situación ideal:

gpu-network-solution

Excelencia en arquitectura: Optimización ferroviaria para topología de red de modelos grandes

En el campo del trabajo de modelos a gran escala, la clave del éxito radica en configurar una topología de red de árbol grueso dedicada. A diferencia de los tradicionales árboles de computación de alto rendimiento (HPC), "Rails" ofrece un rendimiento mejorado e innovador.

Lower-End Fat-Tree and Rails-Optimized Topology

Esta ilustración muestra una versión fundamental de la topología optimizada para Rails y fat-tree. Se compone de dos interruptores, con MQM8700 que representa un interruptor HDR. La velocidad de interconexión entre los dos conmutadores HDR está asegurada por cuatro cables HDR. Cada nodo GPU DGX cuenta con un total de nueve tarjetas InfiniBand (IB), denominadas Adaptadores de canal de host (HCA) en el diagrama. Entre ellas, una tarjeta está dedicada exclusivamente al almacenamiento (Storage Target), mientras que las ocho restantes sirven para el entrenamiento de modelos a gran escala. Específicamente, HCA1/3/5/7 se conecta al primer conmutador, mientras que HCA2/4/6/8 se asocia con el segundo conmutador.

Topología optimizada para rieles de alta velocidad

Para lograr una red fluida y de alto rendimiento, se recomienda utilizar una topología ferroviaria sin obstáculos y totalmente optimizada, como se muestra en el diagrama anterior. Cada nodo GPU DGX está equipado con ocho tarjetas IB, cada una de las cuales se conecta a un conmutador individual. Estos interruptores, denominados interruptores de hoja, suman un total de ocho. La asignación es meticulosa: HCA1 se vincula al primer interruptor de hoja, HCA2 al segundo, y así sucesivamente. Para facilitar la conectividad de alta velocidad entre interruptores de hoja, entran en juego los interruptores de columna.

La topología subyacente, representada en el diagrama siguiente, se despliega con dos interruptores verdes que representan interruptores de columna y cuatro interruptores azules como interruptores de hoja. Un total de 80 cables interconectan los interruptores azul y verde, con los interruptores azules estratégicamente ubicados debajo, conectados a los nodos de cómputo. La esencia de esta configuración radica en su capacidad para sortear cuellos de botella, permitiendo a cada tarjeta IB establecer comunicación de alta velocidad con todas las demás tarjetas IB dentro de la red. Esto se traduce en un entorno en el que cualquier GPU puede comunicarse sin problemas con otras GPU a velocidades sin precedentes.

diagrama de nodos de lomo a hoja a servidor

Decidir la excelencia: Soluciones InfiniBand y RoCE de FS

En el intrincado panorama de las redes sin pérdidas de alto rendimiento, la elección entre InfiniBand y RoCE depende de las demandas específicas de su aplicación e infraestructura. Tanto InfiniBand como RoCE son incondicionales, ya que ofrecen baja latencia, gran ancho de banda y una sobrecarga mínima de CPU, lo que los hace aptos para aplicaciones informáticas de alto rendimiento.

FS ofrece una amplia gama de productos de alta velocidad, atendiendo tanto a soluciones InfiniBand y Ethernet. Our modules are available in a wide range of speeds, from 40G to 800G, with options for multi-rate DACs and AOCs to meet the diverse needs of our customers. Additionally, we provide NVIDIA® switches and NICs to further enhance your networking capabilities. These products not only showcase exceptional performance but also serve as catalysts, substantially amplifying customers' business acceleration capabilities at an economical cost.

También podría interesarte

Conocimiento
Conocimiento
See profile for Sheldon.
Sheldon
¿Qué es el puerto SFP del switch Gigabit?
ene 29, 2023
50.5k
Conocimiento
Conocimiento
Conocimiento
See profile for Sheldon.
Sheldon
Análisis de PON: Qué es OLT, ONU, ONT y ODN
oct 22, 2018
42.4k
Conocimiento
See profile for Migelle.
Migelle
Switch PoE vs PoE+ vs PoE++: ¿Cómo elegir?
ene 18, 2022
29.5k
Conocimiento
Conocimiento
Conocimiento
Conocimiento
See profile for Vincent.
Vincent
¿Qué es un SFP BiDi y tipos de SFP BiDi?
mar 31, 2022
19.1k
Conocimiento
See profile for Sheldon.
Sheldon
RIP vs OSPF: ¿Cuál es la diferencia?
jul 9, 2021
31.5k