Una descripción general de NVIDIA NVLink
NVIDIA NVLink se ha convertido en una tecnología crucial en los campos de la informática de alto rendimiento (HPC). Este artículo profundiza en las complejidades de NVLink, y aprende sobre los chips NVSwitch, los servidores NVLink y los conmutadores NVLink, arrojando luz sobre su importancia en el panorama en constante evolución de la informática avanzada.
¿Qué es NVIDIA NVLink?
NVLink es un protocolo que aborda las limitaciones de comunicación entre GPU dentro de un servidor. A diferencia de los conmutadores PCIe tradicionales, que tienen un ancho de banda limitado, NVLink permite la interconexión directa de alta velocidad entre las GPU dentro del servidor. El NVLink de cuarta generación ofrece un ancho de banda significativamente mayor (112 Gbps por carril) en comparación con los carriles PCIe Gen5, que es tres veces más rápido.
NVLink tiene como objetivo ofrecer una red punto a punto optimizada y de alta velocidad para interconexiones directas de GPU, minimizando la sobrecarga en comparación con las redes tradicionales. Al proporcionar aceleración CUDA en diferentes capas, NVLink reduce la sobrecarga de la red relacionada con las comunicaciones. NVLink ha evolucionado junto con la arquitectura de GPU, pasando de NVLink1 para P100 a NVLink4 para H100, como se muestra en la figura. La diferencia clave entre NVLink 1.0, NVLink 2.0, NVLink 3.0 y NVLink 4.0 radica en el método de conexión, el ancho de banda y el rendimiento.
Chip NVSwitch
El chip NVSwitch es un chip físico similar a un conmutador ASIC que conecta múltiples GPU con interfaces NVLink de alta velocidad, mejorando la comunicación y el ancho de banda dentro de un servidor. Se ha propuesto la tercera generación de NVIDIA NVSwitch y puede interconectar cada par de GPU a una asombrosa velocidad de 900GB/s.
El último chip NVSwitch3, con 64 puertos NVLink4, ofrece un total de 12,8 Tbps de ancho de banda unidireccional o 3,2 TB/s de ancho de banda bidireccional. Lo que distingue al chip NVSwitch3 es su integración de la función SHARP, que agrega y actualiza los resultados de cálculo en múltiples unidades GPU durante todas las operaciones reducidas, reduciendo los paquetes de red y mejorando el rendimiento computacional.
Servidor NVLink
Los servidores NVLink incorporan tecnologías NVLink y NVSwitch para conectar GPU, que normalmente se encuentran en los servidores de la serie DGX de NVIDIA o en los servidores OEM HGX con arquitecturas similares. Estos servidores utilizan la tecnología NVLink, lo que ofrece interconectividad de GPU, escalabilidad y capacidades HPC excepcionales. En 2022, NVIDIA anunció el sistema NVIDIA® DGX™ de cuarta generación, la primera plataforma del mundo construida con el nuevo servidor NVIDIA DGX H100.
En consecuencia, los servidores NVLink se han vuelto indispensables en dominios cruciales como la informática científica, el procesamiento de big data y los centros de datos. Al proporcionar una potencia informática sólida y un procesamiento de datos eficiente, los servidores NVLink no solo cumplen con los exigentes requisitos de estos campos, sino que también impulsan avances y fomentan innovaciones dentro de ellos.
NVLink Switch
En 2022, NVIDIA sacó el chip NVSwitch y lo convirtió en un conmutador llamado NVLink Switch, que conecta dispositivos GPU entre hosts. Adopta un diseño de tamaño 1U con 32 puertos OSFP; Cada OSFP consta de 8 carriles PAM4 de 112G y cada conmutador tiene 2 chips NVSwitch3 integrados.
Red NVLink
El conmutador físico NVSwitch conecta varios servidores GPU NVLink a una gran red Fabric, que es la red NVLink, lo que resuelve problemas de eficiencia y ancho de banda de comunicación de alta velocidad entre GPU. Cada servidor tiene su propio espacio de direcciones independiente, proporcionando transmisión de datos, aislamiento y protección de seguridad para GPU en la red NVLink. Cuando se inicia el sistema, la red NVLink establece automáticamente una conexión a través de la API del software y puede cambiar la dirección durante la operación.
La figura compara las redes NVLink con las redes Ethernet tradicionales, lo que demuestra la creación de una red NVLink independiente de IP Ethernet y dedicada al servicio GPU.
Concepto
|
Ejemplo tradicional
|
Red NVLink
|
---|---|---|
Capa física
|
Medios eléctricos/ópticos de 400G
|
OSFP FW personalizado
|
Capa de enlace de datos
|
Ethernet
|
NVLink personalizado en chip HW y FW
|
Capa de red
|
IP
|
Nuevos protocolos de gestión y direccionamiento de red NVLink
|
Capa de transporte
|
TCP
|
NVLink personalizado en chip HW y FW
|
Capa de sesión
|
Enchufes
|
Grupos SHARPExportación CUDA de direcciones de red de estructuras de datos
|
Capa de presentación
|
TSL/SSL
|
Abstracciones de biblioteca (e.g., NCCL, NVSHMEM)
|
Capa de aplicación
|
HTTP/FTP
|
Al frameworks o aplicaciones de usuario
|
NIC
|
PCIe NIC (tarjeta o chip)
|
Funciones integradas en GPU y NVSwitch
|
Descarga RDMA
|
Motor de descarga de NIC
|
Motor de copia interno de GPU
|
Descarga de colectivos
|
NIC/apagar motor de descarga
|
Motores SHARP internos de NVSwitch
|
Descarga de seguridad
|
Funciones de seguridad de la tarjeta de red
|
Cifrado interno de GPU y cortafuegos "TLB"
|
Control de medios
|
Adaptación del cable NIC
|
Controladores de cable OSFP internos NVSwitch
|
Tabla: Conceptos de redes tradicionales asignados a sus contrapartes con el sistema de conmutador NVLink
|
Red InfiniBand VS Red NVLink
InfiniBand Network y NVLink Network son dos tecnologías de red diferentes que se utilizan en aplicaciones de centros de datos y computación de alto rendimiento. Tienen las siguientes diferencias:
Arquitectura y Diseño: InfiniBand Network es una tecnología de red de estándar abierto que utiliza conexiones serie multicanal de alta velocidad, que admite comunicación punto a punto y multidifusión. NVLink Network es una tecnología patentada de NVIDIA, diseñada para conexiones directas de alta velocidad entre GPU.
Apliacación InfiniBand Network se utiliza ampliamente en clústeres de HPC y centros de datos a gran escala. NVLink Network se utiliza principalmente en clústeres de GPU a gran escala, HPC y otros campos.
Ancho de banda y latencia: InfiniBand Network ofrece comunicación de alto ancho de banda y baja latencia, lo que proporciona un mayor rendimiento y retrasos de transmisión más cortos. NVLink Network ofrece mayor ancho de banda y menor latencia entre GPU para admitir un rápido intercambio de datos y computación colaborativa. La siguiente es la comparación del ancho de banda entre el H100 que usa la red NVLink y el A100 que usa la red IB.
También verifica -Conociendo InfiniBand.
Conclusion
NVIDIA NVLink se erige como una tecnología innovadora que ha revolucionado los campos de HPC. Su capacidad para mejorar la comunicación de la GPU, mejorar el rendimiento y permitir un procesamiento paralelo fluido lo ha convertido en un componente indispensable en numerosas aplicaciones de HPC e IA. A medida que el panorama de la informática avanzada continúa evolucionando, la importancia y el impacto de NVLink se expandirán, impulsando la innovación y ampliando los límites de lo que es posible.
También podría interesarte
Dirección de correo electrónico
-
T568A y T568B: dos estándares de cable de red RJ45
jul 15, 2021
-
¿Qué es un patch panel y por qué lo necesitamos?
jul 6, 2021