Español

Una descripción general de NVIDIA NVLink

Actualizado el 29 de enero de 2024 por
614

NVIDIA NVLink se ha convertido en una tecnología crucial en los campos de la informática de alto rendimiento (HPC). Este artículo profundiza en las complejidades de NVLink, y aprende sobre los chips NVSwitch, los servidores NVLink y los conmutadores NVLink, arrojando luz sobre su importancia en el panorama en constante evolución de la informática avanzada.

¿Qué es NVIDIA NVLink?

NVLink es un protocolo que aborda las limitaciones de comunicación entre GPU dentro de un servidor. A diferencia de los conmutadores PCIe tradicionales, que tienen un ancho de banda limitado, NVLink permite la interconexión directa de alta velocidad entre las GPU dentro del servidor. El NVLink de cuarta generación ofrece un ancho de banda significativamente mayor (112 Gbps por carril) en comparación con los carriles PCIe Gen5, que es tres veces más rápido.

NVLink

NVLink tiene como objetivo ofrecer una red punto a punto optimizada y de alta velocidad para interconexiones directas de GPU, minimizando la sobrecarga en comparación con las redes tradicionales. Al proporcionar aceleración CUDA en diferentes capas, NVLink reduce la sobrecarga de la red relacionada con las comunicaciones. NVLink ha evolucionado junto con la arquitectura de GPU, pasando de NVLink1 para P100 a NVLink4 para H100, como se muestra en la figura. La diferencia clave entre NVLink 1.0, NVLink 2.0, NVLink 3.0 y NVLink 4.0 radica en el método de conexión, el ancho de banda y el rendimiento.

Chip NVSwitch

El chip NVSwitch es un chip físico similar a un conmutador ASIC que conecta múltiples GPU con interfaces NVLink de alta velocidad, mejorando la comunicación y el ancho de banda dentro de un servidor. Se ha propuesto la tercera generación de NVIDIA NVSwitch y puede interconectar cada par de GPU a una asombrosa velocidad de 900GB/s.

NVLink`

El último chip NVSwitch3, con 64 puertos NVLink4, ofrece un total de 12,8 Tbps de ancho de banda unidireccional o 3,2 TB/s de ancho de banda bidireccional. Lo que distingue al chip NVSwitch3 es su integración de la función SHARP, que agrega y actualiza los resultados de cálculo en múltiples unidades GPU durante todas las operaciones reducidas, reduciendo los paquetes de red y mejorando el rendimiento computacional.

NVLink

Servidor NVLink

Los servidores NVLink incorporan tecnologías NVLink y NVSwitch para conectar GPU, que normalmente se encuentran en los servidores de la serie DGX de NVIDIA o en los servidores OEM HGX con arquitecturas similares. Estos servidores utilizan la tecnología NVLink, lo que ofrece interconectividad de GPU, escalabilidad y capacidades HPC excepcionales. En 2022, NVIDIA anunció el sistema NVIDIA® DGX™ de cuarta generación, la primera plataforma del mundo construida con el nuevo servidor NVIDIA DGX H100.

NVLink

En consecuencia, los servidores NVLink se han vuelto indispensables en dominios cruciales como la informática científica, el procesamiento de big data y los centros de datos. Al proporcionar una potencia informática sólida y un procesamiento de datos eficiente, los servidores NVLink no solo cumplen con los exigentes requisitos de estos campos, sino que también impulsan avances y fomentan innovaciones dentro de ellos.

NVLink

NVLink Switch

En 2022, NVIDIA sacó el chip NVSwitch y lo convirtió en un conmutador llamado NVLink Switch, que conecta dispositivos GPU entre hosts. Adopta un diseño de tamaño 1U con 32 puertos OSFP; Cada OSFP consta de 8 carriles PAM4 de 112G y cada conmutador tiene 2 chips NVSwitch3 integrados.

NVLink

Red NVLink

El conmutador físico NVSwitch conecta varios servidores GPU NVLink a una gran red Fabric, que es la red NVLink, lo que resuelve problemas de eficiencia y ancho de banda de comunicación de alta velocidad entre GPU. Cada servidor tiene su propio espacio de direcciones independiente, proporcionando transmisión de datos, aislamiento y protección de seguridad para GPU en la red NVLink. Cuando se inicia el sistema, la red NVLink establece automáticamente una conexión a través de la API del software y puede cambiar la dirección durante la operación.

NVLink

La figura compara las redes NVLink con las redes Ethernet tradicionales, lo que demuestra la creación de una red NVLink independiente de IP Ethernet y dedicada al servicio GPU.

Concepto
Ejemplo tradicional
Red NVLink
Capa física
Medios eléctricos/ópticos de 400G
OSFP FW personalizado
Capa de enlace de datos
Ethernet
NVLink personalizado en chip HW y FW
Capa de red
IP
Nuevos protocolos de gestión y direccionamiento de red NVLink
Capa de transporte
TCP
NVLink personalizado en chip HW y FW
Capa de sesión
Enchufes
Grupos SHARPExportación CUDA de direcciones de red de estructuras de datos
Capa de presentación
TSL/SSL
Abstracciones de biblioteca (e.g., NCCL, NVSHMEM)
Capa de aplicación
HTTP/FTP
Al frameworks o aplicaciones de usuario
NIC
PCIe NIC (tarjeta o chip)
Funciones integradas en GPU y NVSwitch
Descarga RDMA
Motor de descarga de NIC
Motor de copia interno de GPU
Descarga de colectivos
NIC/apagar motor de descarga
Motores SHARP internos de NVSwitch
Descarga de seguridad
Funciones de seguridad de la tarjeta de red
Cifrado interno de GPU y cortafuegos "TLB"
Control de medios
Adaptación del cable NIC
Controladores de cable OSFP internos NVSwitch
Tabla: Conceptos de redes tradicionales asignados a sus contrapartes con el sistema de conmutador NVLink

Red InfiniBand VS Red NVLink

InfiniBand Network y NVLink Network son dos tecnologías de red diferentes que se utilizan en aplicaciones de centros de datos y computación de alto rendimiento. Tienen las siguientes diferencias:

Arquitectura y Diseño: InfiniBand Network es una tecnología de red de estándar abierto que utiliza conexiones serie multicanal de alta velocidad, que admite comunicación punto a punto y multidifusión. NVLink Network es una tecnología patentada de NVIDIA, diseñada para conexiones directas de alta velocidad entre GPU.

Apliacación InfiniBand Network se utiliza ampliamente en clústeres de HPC y centros de datos a gran escala. NVLink Network se utiliza principalmente en clústeres de GPU a gran escala, HPC y otros campos.

Ancho de banda y latencia: InfiniBand Network ofrece comunicación de alto ancho de banda y baja latencia, lo que proporciona un mayor rendimiento y retrasos de transmisión más cortos. NVLink Network ofrece mayor ancho de banda y menor latencia entre GPU para admitir un rápido intercambio de datos y computación colaborativa. La siguiente es la comparación del ancho de banda entre el H100 que usa la red NVLink y el A100 que usa la red IB.

NVLink

 También verifica -Conociendo InfiniBand.

Conclusion

NVIDIA NVLink se erige como una tecnología innovadora que ha revolucionado los campos de HPC. Su capacidad para mejorar la comunicación de la GPU, mejorar el rendimiento y permitir un procesamiento paralelo fluido lo ha convertido en un componente indispensable en numerosas aplicaciones de HPC e IA. A medida que el panorama de la informática avanzada continúa evolucionando, la importancia y el impacto de NVLink se expandirán, impulsando la innovación y ampliando los límites de lo que es posible.

También podría interesarte

Conocimiento
Conocimiento
See profile for Sheldon.
Sheldon
¿Qué es el puerto SFP del switch Gigabit?
ene 29, 2023
62.0k
Conocimiento
Conocimiento
Conocimiento
See profile for Sheldon.
Sheldon
Análisis de PON: Qué es OLT, ONU, ONT y ODN
oct 22, 2018
52.6k
Conocimiento
See profile for Migelle.
Migelle
Switch PoE vs PoE+ vs PoE++: ¿Cómo elegir?
ene 18, 2022
35.0k
Conocimiento
Conocimiento
Conocimiento
Conocimiento
Conocimiento
See profile for Vincent.
Vincent
¿Qué es un SFP BiDi y tipos de SFP BiDi?
mar 31, 2022
21.3k