Una descripción general de NVIDIA NVLink

Actualizado el 29 de enero de 2024 por

 480

NVIDIA NVLink se ha convertido en una tecnología crucial en los campos de la informática de alto rendimiento (HPC). Este artículo profundiza en las complejidades de NVLink, y aprende sobre los chips NVSwitch, los servidores NVLink y los conmutadores NVLink, arrojando luz sobre su importancia en el panorama en constante evolución de la informática avanzada.

¿Qué es NVIDIA NVLink?

NVLink es un protocolo que aborda las limitaciones de comunicación entre GPU dentro de un servidor. A diferencia de los conmutadores PCIe tradicionales, que tienen un ancho de banda limitado, NVLink permite la interconexión directa de alta velocidad entre las GPU dentro del servidor. El NVLink de cuarta generación ofrece un ancho de banda significativamente mayor (112 Gbps por carril) en comparación con los carriles PCIe Gen5, que es tres veces más rápido.

NVLink

NVLink tiene como objetivo ofrecer una red punto a punto optimizada y de alta velocidad para interconexiones directas de GPU, minimizando la sobrecarga en comparación con las redes tradicionales. Al proporcionar aceleración CUDA en diferentes capas, NVLink reduce la sobrecarga de la red relacionada con las comunicaciones. NVLink ha evolucionado junto con la arquitectura de GPU, pasando de NVLink1 para P100 a NVLink4 para H100, como se muestra en la figura. La diferencia clave entre NVLink 1.0, NVLink 2.0, NVLink 3.0 y NVLink 4.0 radica en el método de conexión, el ancho de banda y el rendimiento.

Chip NVSwitch

El chip NVSwitch es un chip físico similar a un conmutador ASIC que conecta múltiples GPU con interfaces NVLink de alta velocidad, mejorando la comunicación y el ancho de banda dentro de un servidor. Se ha propuesto la tercera generación de NVIDIA NVSwitch y puede interconectar cada par de GPU a una asombrosa velocidad de 900GB/s.

NVLink`

El último chip NVSwitch3, con 64 puertos NVLink4, ofrece un total de 12,8 Tbps de ancho de banda unidireccional o 3,2 TB/s de ancho de banda bidireccional. Lo que distingue al chip NVSwitch3 es su integración de la función SHARP, que agrega y actualiza los resultados de cálculo en múltiples unidades GPU durante todas las operaciones reducidas, reduciendo los paquetes de red y mejorando el rendimiento computacional.

NVLink

Servidor NVLink

Los servidores NVLink incorporan tecnologías NVLink y NVSwitch para conectar GPU, que normalmente se encuentran en los servidores de la serie DGX de NVIDIA o en los servidores OEM HGX con arquitecturas similares. Estos servidores utilizan la tecnología NVLink, lo que ofrece interconectividad de GPU, escalabilidad y capacidades HPC excepcionales. En 2022, NVIDIA anunció el sistema NVIDIA® DGX™ de cuarta generación, la primera plataforma del mundo construida con el nuevo servidor NVIDIA DGX H100.

NVLink

En consecuencia, los servidores NVLink se han vuelto indispensables en dominios cruciales como la informática científica, el procesamiento de big data y los centros de datos. Al proporcionar una potencia informática sólida y un procesamiento de datos eficiente, los servidores NVLink no solo cumplen con los exigentes requisitos de estos campos, sino que también impulsan avances y fomentan innovaciones dentro de ellos.

NVLink

NVLink Switch

En 2022, NVIDIA sacó el chip NVSwitch y lo convirtió en un conmutador llamado NVLink Switch, que conecta dispositivos GPU entre hosts. Adopta un diseño de tamaño 1U con 32 puertos OSFP; Cada OSFP consta de 8 carriles PAM4 de 112G y cada conmutador tiene 2 chips NVSwitch3 integrados.

NVLink

Red NVLink

El conmutador físico NVSwitch conecta varios servidores GPU NVLink a una gran red Fabric, que es la red NVLink, lo que resuelve problemas de eficiencia y ancho de banda de comunicación de alta velocidad entre GPU. Cada servidor tiene su propio espacio de direcciones independiente, proporcionando transmisión de datos, aislamiento y protección de seguridad para GPU en la red NVLink. Cuando se inicia el sistema, la red NVLink establece automáticamente una conexión a través de la API del software y puede cambiar la dirección durante la operación.

NVLink

La figura compara las redes NVLink con las redes Ethernet tradicionales, lo que demuestra la creación de una red NVLink independiente de IP Ethernet y dedicada al servicio GPU.

Concepto	Ejemplo tradicional	Red NVLink
Capa física	Medios eléctricos/ópticos de 400G	OSFP FW personalizado
Capa de enlace de datos	Ethernet	NVLink personalizado en chip HW y FW
Capa de red	IP	Nuevos protocolos de gestión y direccionamiento de red NVLink
Capa de transporte	TCP	NVLink personalizado en chip HW y FW
Capa de sesión	Enchufes	Grupos SHARPExportación CUDA de direcciones de red de estructuras de datos
Capa de presentación	TSL/SSL	Abstracciones de biblioteca (e.g., NCCL, NVSHMEM)
Capa de aplicación	HTTP/FTP	Al frameworks o aplicaciones de usuario
NIC	PCIe NIC (tarjeta o chip)	Funciones integradas en GPU y NVSwitch
Descarga RDMA	Motor de descarga de NIC	Motor de copia interno de GPU
Descarga de colectivos	NIC/apagar motor de descarga	Motores SHARP internos de NVSwitch
Descarga de seguridad	Funciones de seguridad de la tarjeta de red	Cifrado interno de GPU y cortafuegos "TLB"
Control de medios	Adaptación del cable NIC	Controladores de cable OSFP internos NVSwitch
Tabla: Conceptos de redes tradicionales asignados a sus contrapartes con el sistema de conmutador NVLink

Red InfiniBand VS Red NVLink

InfiniBand Network y NVLink Network son dos tecnologías de red diferentes que se utilizan en aplicaciones de centros de datos y computación de alto rendimiento. Tienen las siguientes diferencias:

Arquitectura y Diseño: InfiniBand Network es una tecnología de red de estándar abierto que utiliza conexiones serie multicanal de alta velocidad, que admite comunicación punto a punto y multidifusión. NVLink Network es una tecnología patentada de NVIDIA, diseñada para conexiones directas de alta velocidad entre GPU.

Apliacación InfiniBand Network se utiliza ampliamente en clústeres de HPC y centros de datos a gran escala. NVLink Network se utiliza principalmente en clústeres de GPU a gran escala, HPC y otros campos.

Ancho de banda y latencia: InfiniBand Network ofrece comunicación de alto ancho de banda y baja latencia, lo que proporciona un mayor rendimiento y retrasos de transmisión más cortos. NVLink Network ofrece mayor ancho de banda y menor latencia entre GPU para admitir un rápido intercambio de datos y computación colaborativa. La siguiente es la comparación del ancho de banda entre el H100 que usa la red NVLink y el A100 que usa la red IB.

NVLink

También verifica -Conociendo InfiniBand.

Conclusion

NVIDIA NVLink se erige como una tecnología innovadora que ha revolucionado los campos de HPC. Su capacidad para mejorar la comunicación de la GPU, mejorar el rendimiento y permitir un procesamiento paralelo fluido lo ha convertido en un componente indispensable en numerosas aplicaciones de HPC e IA. A medida que el panorama de la informática avanzada continúa evolucionando, la importancia y el impacto de NVLink se expandirán, impulsando la innovación y ampliando los límites de lo que es posible.