Práctica de diseño de arquitectura de red del centro de computación inteligente Al

Actualizado el 27 de diciembre de 2023 por

 195

Las redes de centros de datos para configuraciones de nube convencionales generalmente se diseñan teniendo en cuenta un patrón de tráfico que prioriza las necesidades de los clientes externos. Esta orientación da como resultado un flujo predominante de datos desde los centros de datos hacia los usuarios finales, un movimiento direccional a menudo denominado tráfico norte-sur. Por el contrario, el tráfico que se mueve lateralmente dentro de la nube, etiquetado como este-oeste, pasa a un segundo plano en este modelo. Sin embargo, esta infraestructura de red fundamental, que facilita las redes de nube privada virtual (VPC) y sustenta las tareas informáticas inteligentes, enfrenta una serie de dificultades.

Arquitectura de red del centro de computación Inteligente Al-1

Congestión de la red: no todos los servidores generan tráfico saliente simultáneamente. Para controlar los costos de construcción de la red, el ancho de banda de los puertos de enlace descendente en los conmutadores de hoja y los puertos de enlace ascendente no tienen una relación de 1:1, sino que están diseñados con una relación de convergencia. Generalmente, el ancho de banda del enlace ascendente es sólo un tercio del ancho de banda del enlace descendente.

Alta latencia para el tráfico interno de la nube: la comunicación entre dos servidores a través de conmutadores de hoja diferentes requiere atravesar conmutadores centrales, lo que da como resultado una ruta de reenvío de tres saltos, lo que introduce latencia adicional.

Ancho de banda limitado: en la mayoría de los casos, una única máquina física está equipada con una sola tarjeta de interfaz de red (NIC) para conectarse a la red VPC. El ancho de banda de una sola NIC es relativamente limitado y las NIC comerciales disponibles actualmente no suelen superar los 200 Gbps.

Para escenarios de computación inteligente, una práctica recomendada es construir una red dedicada de alto rendimiento para acomodar cargas de trabajo de computación inteligente, cumpliendo con los requisitos de gran ancho de banda, baja latencia y sin pérdidas.

Diseño de alto ancho de banda

Los servidores informáticos inteligentes pueden equiparse completamente con 8 tarjetas GPPU y tener reservadas 8 ranuras para tarjetas de red PCIe. Al crear un clúster de GPU en varias máquinas, el ancho de banda en ráfaga para la comunicación entre dos GPU puede superar los 50 Gbps. Por tanto, es habitual asociar cada GPU a un puerto de red de al menos 100 Gbps. En este escenario, puede configurar 4 tarjetas de red con una capacidad de 2100 Gbps cada una u 8 tarjetas de red con una capacidad de 1100 Gbps cada una. Alternativamente, puede configurar 8 tarjetas de red con una capacidad de un solo puerto de 200/400 Gbps.

Al Intelligent Computing Center Network Architecture-2

Diseño de desbloqueo

La clave para desbloquear el diseño de la red es adoptar una arquitectura Fat-Tree. El ancho de banda de enlace descendente y ascendente de los conmutadores sigue un diseño no convergente 1:1. Por ejemplo, si hay 64 puertos con un ancho de banda de 100 Gbps cada uno en el enlace descendente, también habrá 64 puertos con un ancho de banda de 100 Gbps cada uno en el enlace ascendente.

Además, se deben utilizar conmutadores de nivel de centro de datos con capacidad de reenvío sin bloqueo. Los principales conmutadores de centros de datos disponibles en el mercado generalmente ofrecen capacidad de reenvío sin bloqueo de puerto completo.

Diseño de baja latencia: Al-Pool

En términos de diseño de arquitectura de red de baja latencia, Baidu Intelligent Cloud ha implementado y desplegado la solución de red Al-Pool basada en la optimización Rail. En esta solución de red, 8 conmutadores de acceso forman un grupo AA-Pool. Tomando como ejemplo una arquitectura de red de conmutadores de dos capas, esta arquitectura de red logra una comunicación de un solo salto entre diferentes nodos informáticos inteligentes dentro del mismo Al-Pool.

En la arquitectura de red Al-Pool, los puertos de red con los mismos números de diferentes nodos de computación inteligente deben conectarse al mismo conmutador. Por ejemplo, el puerto RDMA 1 del nodo de computación inteligente 1, el puerto RDMAA 1 del nodo de computación inteligente 2, etc. , hasta el puerto RDIMA 1 del nodo informático inteligente P/2, todos deben estar conectados al conmutador.

Dentro de cada nodo de computación inteligente, la biblioteca de comunicación de capa superior hace coincidir las tarjetas GPU con los puertos de red correspondientes según la topología de red del nodo. Esto permite la comunicación directa con un solo salto entre dos nodos informáticos inteligentes que tienen el mismo número de tarjeta GPU.

Para la comunicación entre nodos informáticos inteligentes con diferentes números de tarjetas GPU, la tecnología Rail Local en la biblioteca de comunicación NCCL puede aprovechar al máximo el ancho de banda de NVSwitch entre GPUS dentro del host, transformando la comunicación entre tarjetas entre múltiples máquinas en comunicación entre los mismos números de tarjetas GPU. entre máquinas.

Arquitectura de red del centro de computación inteligente Al-3

Para la comunicación entre dos máquinas físicas a través de Al-PocI, es necesario pasar por conmutadores de agregación, lo que da como resultado una comunicación de tres saltos.

La escalabilidad de las GPU que puede admitir la red está relacionada con la densidad de puertos y la arquitectura de red de los conmutadores utilizados. A medida que la red se vuelve más jerárquica, puede acomodar una mayor cantidad de tarjetas GPU, pero la cantidad de saltos y la latencia para el reenvío también aumentan. Por lo tanto, se debe hacer una compensación basada en los requisitos reales del negocio.

Arquitectura de árbol gordo de dos niveles

Ocho conmutadores de acceso forman un grupo de recursos informáticos inteligentes llamado Al-Pool. En el diagrama, P representa la cantidad de puertos en un solo conmutador. Cada conmutador puede tener un máximo de puertos de enlace descendente P/2 y puertos de enlace ascendente P/2, lo que significa que un único conmutador puede conectarse hasta a servidores P/2 y conmutadores P/2. Una red Fat-Tree de dos niveles puede alojar un total de tarjetas GIPU P*P/2.

Arquitectura de árbol gordo de tres niveles

En una arquitectura de red de tres niveles, existen grupos de conmutadores de agregación adicionales y grupos de conmutadores principales. El número máximo de interruptores en cada grupo es P/2. El número máximo de grupos de conmutadores de agregación es 8 y el número máximo de grupos de conmutadores principales es P/2. Una red Fat-Tree de tres niveles puede acomodar un total de tarjetas GPU P*(P/2)(P/2) = PP*P/4.

En el contexto de una red Fat-Tree de tres niveles, los conmutadores HDR InfiniBand de 40 puertos y 200 Gbps pueden acomodar un máximo de 16.000 GPUS. Esta escala de 16.000 tarjetas GPU es actualmente la red de mayor escala para clústeres de GPU que utilizan InfiniBand en China, y Baidu ostenta el récord actual.

Arquitectura de red del centro de computación inteligente Al-4

Comparación de arquitecturas de red de árbol gordo de dos y tres niveles

La escala de tarjetas GPU acomodadas

La diferencia más significativa entre un Fat-Tree de dos niveles y un Fat-Tree de tres niveles radica en la capacidad para acomodar tarjetas GPU. En el siguiente diagrama, N representa la escala de tarjetas GPU y P representa la cantidad de puertos en un solo conmutador. Por ejemplo, para un conmutador con 40 puertos, una arquitectura Fat-Tree de dos niveles puede acomodar 800 tarjetas GPU, mientras que una arquitectura Fat-Tree de tres niveles puede acomodar 16 000 tarjetas GPU.

Arquitectura de red del centro de computación inteligente Al-5

Forwarding path

Otra diferencia entre las arquitecturas de red Fat-Tree de dos niveles y Fat-Tree de tres niveles es la cantidad de saltos en la ruta de reenvío de la red entre dos nodos cualesquiera.

En la arquitectura Fat-Tree de dos niveles, dentro del mismo grupo de recursos informáticos inteligentes (Al-Pool), la ruta de reenvío entre nodos con el mismo número de tarjeta GPU es de 1 salto. La ruta de reenvío entre nodos con diferentes números de tarjeta GPU, sin optimización Rail Local dentro de los nodos de computación inteligente, es de 3 saltos.

En la arquitectura Fat-Tree de tres niveles, dentro del mismo grupo de recursos informáticos inteligentes (AI-Pool), la ruta de reenvío entre nodos con el mismo número de tarjeta GPU es de 3 saltos. La ruta de reenvío entre nodos con diferentes números de tarjeta GPU, sin optimización Rail Local dentro de los nodos de computación inteligente, es de 5 saltos.

Arquitectura de red del centro de computación inteligente Al-6

Práctica típica de arquitectura de red AI HPC

Basándonos en los conmutadores comerciales actualmente maduros, recomendamos varias especificaciones para arquitecturas de red físicas, teniendo en cuenta los diferentes modelos de conmutadores InfiniBand/RoCE y la escala admitida de GPUS.

Regular: arquitectura de red InfiniBand Fat-Tree de dos niveles basada en conmutadores InfiniBand HDR, que admite un máximo de 800 tarjetas GPU en un solo clúster.

Grande: arquitectura de red RoCE Fat-Tree de dos niveles basada en conmutadores Ethernet de centro de datos de 128 puertos 100G, que admiten un máximo de 8192 tarjetas GPU en un solo clúster.

XLarge: arquitectura de red InfiniBand Fat-Tree de tres niveles basada en conmutadores InfiniBand HDR, que admite un máximo de 16 000 tarjetas GPU en un solo clúster.

XXLarge: basado en conmutadores InfiniBand Quantum-2 o conmutadores de centro de datos Ethernet de rendimiento equivalente, que adopta una arquitectura de red Fat-Tree de tres niveles y admite un máximo de 100 000 tarjetas GPU en un solo clúster.

Arquitectura de red del centro de computación inteligente Al-7

Al mismo tiempo, la conectividad de red de alta velocidad es esencial para garantizar una transmisión y procesamiento de datos eficiente.

FS proporciona productos de conexión de alta calidad para cumplir con los requisitos de la implementación de redes del modelo AI. La línea de productos FS incluye conmutadores InfiniBand (200G, 400G), conmutadores de centro de datos (10G, 40G, 100G, 400G) tarjetas de red y módulos ópticos (10/25G, 40G, 50/56G, 100G), que pueden acelerar el entrenamiento del modelo de IA y proceso de inferencia. Los módulos ópticos proporcionan un gran ancho de banda, baja latencia y bajas tasas de error, mejorando las capacidades de las redes de los centros de datos y permitiendo una computación A más rápida y eficiente. La elección de los productos de conexión de FS puede optimizar el rendimiento de la red y respaldar la implementación y operación de modelos de IA a gran escala.