Soluciones avanzadas de redes para inteligencia artificial

Actualizado el 22 de diciembre de 2023 por

 212

En los últimos años, los modelos de inteligencia artificial (IA) a gran escala han atraído una atención significativa dentro de la comunidad de IA debido a sus notables capacidades en la comprensión del lenguaje natural, el procesamiento multimedios y el potencial para avanzar hacia la IA general. La escala de parámetros de los grandes modelos destacados líderes en la industria ha alcanzado el orden de billones o incluso decenas de billones.

En 2023, un notable producto de inteligencia artificial llamado ChatGPT ganó popularidad, mostrando la capacidad de participar en conversaciones, generar códigos, responder preguntas y escribir novelas. Su tecnología subyacente se basa en el modelo grande GPT-3.5 finamente ajustado, que cuenta con 175 mil millones de parámetros. Los informes indican que el entrenamiento de GPT-3.5 utilizó un sistema de supercomputación de IA dedicado construido por Microsoft. Este sistema constaba de un clúster de red de alto rendimiento que albergaba 10 000 GPU V100, con un consumo de energía informática acumulada de aproximadamente 3640 PF-días. Para ponerlo en perspectiva, si se calcula a una velocidad de 10 billones de cálculos por segundo, el cálculo tardaría 3640 días en completarse.

Elevando las redes para la excelencia en IA

En la era de la inteligencia artificial, la demanda de redes ha aumentado a niveles sin precedentes, lo que requiere un rendimiento y una confiabilidad incomparables. A medida que las tecnologías de IA continúan avanzando y los modelos a gran escala se vuelven estándar, la infraestructura de red debe evolucionar para satisfacer estas demandas y ofrecer niveles excepcionales de conectividad y capacidad de respuesta. La búsqueda de una experiencia de red óptima es primordial, dado su impacto directo en la ejecución perfecta de algoritmos de IA, la eficiencia de la transferencia de datos y la toma de decisiones en tiempo real. Desde la transferencia de datos de alta velocidad hasta la conectividad de latencia ultrabaja, la búsqueda de una red impecable es la piedra angular del éxito de la IA. Sólo mediante el aprovechamiento de tecnologías de vanguardia y la superación continua de los límites de las capacidades de la red podremos desbloquear plenamente el potencial de la IA en la era digital.

Cuellos de botella de red en grandes clústeres de GPU

Según la Ley de Amdahl, la eficiencia de un sistema paralelo está determinada por el desempeño de su comunicación en serie. A medida que aumenta el número de nodos en un sistema paralelo, la proporción de comunicación también aumenta, intensificando su impacto en el rendimiento general del sistema. En extensas tareas de entrenamiento de modelos que involucran la potencia computacional de cientos o incluso miles de GPU, la multitud de nodos de servidor y el requisito de comunicación entre servidores establecen el ancho de banda de la red como un cuello de botella para los sistemas de clúster de GPU. En particular, el uso predominante de una mezcla de expertos (MoE) en arquitecturas de modelos grandes, caracterizadas por características de puerta dispersas y un patrón de comunicación todo-todo, impone exigencias excepcionalmente altas en el rendimiento de la red con tamaños de clúster cada vez mayores. Las estrategias recientes de optimización de la industria para la comunicación All-to-All se han centrado en maximizar la utilización del gran ancho de banda de la red para minimizar el tiempo de comunicación y mejorar la velocidad de entrenamiento de los modelos MoE.

Soluciones avanzadas de redes para inteligencia artificial

Desafíos de estabilidad en grandes grupos de GPU

Una vez que un clúster de GPU alcanza una escala específica, garantizar la estabilidad del sistema de clúster se convierte en un desafío adicional a abordar, además de optimizar el rendimiento. La confiabilidad de la red juega un papel fundamental a la hora de determinar la estabilidad computacional de todo el clúster. Esto se debe a las siguientes razones:

Grandes dominios de fallas de red: a diferencia de un único punto de falla de la CPU, que afecta una pequeña porción de la potencia informática del clúster, las fallas de la red pueden interrumpir la conectividad de docenas o incluso más GPU. Una red estable es imperativa para preservar la integridad de la potencia informática del sistema.
Impacto significativo de las fluctuaciones en el rendimiento de la red: a diferencia de una única GPU o servidor de bajo rendimiento que es relativamente fácil de aislar, la red es un recurso compartido para todo el clúster. Las fluctuaciones en el rendimiento de la red pueden tener un impacto sustancial en la utilización de todos los recursos informáticos.

Aborda estas consideraciones es esencial para mantener la solidez y el rendimiento constante de los clústeres de GPU a gran escala.

Soluciones avanzadas de redes para inteligencia artificial

Potencia redes de formación en IA de alto rendimiento

En el ámbito del entrenamiento de modelos a gran escala, donde las iteraciones de cálculo y la sincronización de gradientes exigen volúmenes de comunicación masivos, no es raro alcanzar cientos de gigabytes para una sola iteración. Además, la introducción de modos paralelos y requisitos de comunicación mediante marcos de aceleración hace que las redes tradicionales de baja velocidad sean ineficientes para soportar el cálculo robusto de los clústeres de GPU. Para aprovechar plenamente las potentes capacidades informáticas de las GPU, es esencial una infraestructura de red de alto rendimiento que proporcione nodos informáticos de súper ancho de banda equipados con capacidades de comunicación de alto ancho de banda, escalabilidad y baja latencia para abordar los desafíos de comunicación inherentes al entrenamiento de IA.

La red NVIDIA InfiniBand (IB) se destaca por proporcionar a cada nodo informático un ancho de banda de comunicación ultraalto, que alcanza hasta 1,6 Tbps. Esto representa una mejora diez veces mayor en comparación con las redes convencionales. Las características clave de la red NVIDIA InfiniBand incluyen:

Topología Fat-Tree sin bloqueo: el empleo de una topología de red sin bloqueo garantiza una transmisión eficiente dentro del clúster, admite una escala de clúster único de hasta 2K GPU y proporciona un rendimiento del clúster al nivel de superEFLOPS (FP16).
Escalabilidad de red flexible: La red permite una expansión flexible y admite un máximo de clústeres informáticos de GPU de 32 000. Esta flexibilidad permite realizar ajustes al tamaño del clúster según la demanda, acomodando el entrenamiento de modelos a gran escala en varias escalas.
Acceso de alto ancho de banda: El plano de red del nodo informático está equipado con ocho tarjetas de red ROCE, lo que facilita un acceso de ancho de banda ultra alto de 1.6Tbps. Este diseño de gran ancho de banda facilita la transmisión rápida de datos entre nodos informáticos, minimizando la latencia de la comunicación.

La utilización de la red NVIDIA InfiniBand permite la construcción de nodos informáticos con un ancho de banda ultraalto, lo que ofrece un rendimiento de comunicación sólido para respaldar el entrenamiento de IA. Además, FS ofrece switches InfiniBand de primer nivel, tarjetas de red InfiniBand, servidores GPU, y productos de alta velocidad como InfiniBand HDR AOC y DAC. Estos productos se alinean con los requisitos de baja latencia, alto ancho de banda y confiabilidad de los clústeres de servidores de red de alto rendimiento de IA.

Resumen

De cara al futuro, con el avance continuo de la potencia informática de la GPU y la evolución continua del entrenamiento de modelos de IA a gran escala, la tarea imperativa de construir una infraestructura de red de alto rendimiento pasa a primer plano. La arquitectura de las redes de clústeres de GPU debe someterse a iteraciones y mejoras continuas para garantizar la utilización y disponibilidad óptimas de la potencia informática del sistema. Sólo a través de innovaciones y actualizaciones incesantes podremos abordar las crecientes demandas de las redes y ofrecer un rendimiento y una confiabilidad de red incomparables.

En la era de la IA, las redes caracterizadas por un gran ancho de banda, baja latencia y escalabilidad están a punto de convertirse en el estándar. Estos atributos son esenciales para brindar un soporte sólido para el entrenamiento de modelos a gran escala y facilitar la toma de decisiones en tiempo real. Como proveedor líder de soluciones de redes ópticas, nuestro compromiso es inquebrantable en ofrecer soluciones de conectividad de red de alta calidad y alto rendimiento diseñadas para clústeres de servidores de IA. Nuestra dedicación se extiende a la innovación continua, la construcción de una infraestructura de red confiable de alto rendimiento y la provisión de bases estables y confiables para el desarrollo y la aplicación de la tecnología de IA.

Naveguemos en colaboración por los desafíos de la era de la IA, trabajando juntos para escribir un nuevo capítulo para un futuro inteligente.