Introducción a NVIDIA DGX H100
El sistema NVIDIA DGX H100 es una solución dedicada y versátil diseñada para toda la infraestructura y cargas de trabajo de IA, que abarca desde análisis y capacitación hasta inferencia. Incluye NVIDIA Base Command™ y el paquete de software NVIDIA AI Enterprise, además de asesoramiento experto de NVIDIA DGXperts.
Características del hardware y los componentes del DGX H100
Descripción general del hardware
El sistema NVIDIA DGX H100 de 640 GB incluye los siguientes componentes.
Conexiones y controles del panel frontal
A la izquierda hay una imagen del sistema DGX H100 con bisel, a la derecha hay una imagen del sistema DGX H100 sin bisel.
Aquí hay una imagen que muestra los módulos de panel reales en DGX H100.
-
Dimensiones: 8U montado en bastidor, altura 14 pulgadas, ancho máximo 19 pulgadas, profundidad máxima 35,3 pulgadas.
-
Peso: Máximo 287,6 libras (130.45 kg).
-
Ivoltaje de entrada: 200-240 voltios AC.
-
Especificaciones para cada fuente de alimentación: Máximo 10,2 kilovatios, 3300 vatios a 200-240 voltios, 16 amperios, 50-60 hercios.
-
Admite conexiones de red de alta velocidad, incluidas InfiniBand y Ethernet, con velocidades de hasta 400 Gbps.
Conexiones y controles de puertos externos
El siguiente diagrama muestra las conexiones y los controles de la placa base en un sistema DGX H100.
-
Slot 1: Tarjeta ConnectX-7 de doble puerto
-
Slot 2: Tarjeta ConnectX-7 de doble puerto
-
Ranura 3: NIC Ethernet de 100 Gb/s
-
Ranura 4: Portador de PCle M.2 para unidades de arranque NVMe duales de 1,92 TB
-
2 puertos USB (teclado o almacenamiento)
-
Serial I/O puerto
-
Puerto VGA (monitor)
-
RJ-45 de 1 GbE para gestión remota del sistema
-
RJ-45 de 10 GbE para host remoto
Componentes de la bandeja de la placa base
La bandeja de la placa base de la CPU sirve como componente central de un servidor, abarcando tanto servidores estándar como aquellos diseñados para inteligencia artificial. Alberga elementos esenciales, incluida la placa base de la CPU, la memoria del sistema, la tarjeta de red, el conmutador PCIE y varios otros componentes. Aquí hay una imagen que muestra los componentes de la bandeja de la placa base en DGX H100.
-
Memoria del sistema: cada 32 DIMM proporciona 2 TB de memoria.
-
Gestión de sistemas fuera de banda (BMC): admite Redfish, IPMI, SNMP, KVM e interfaz de usuario web.
-
Gestión del sistema en banda: 3 interfaces RJ45 de doble puerto de 100GbE y 10GbE. Especificaciones mecánicas y de potencia.
-
Almacenamiento:
Almacenamiento del sistema operativo: 2 SSD NVMe M.2 de 1,92 TB (matriz RAID 1).
Almacenamiento de caché de datos: 8 SED NVMe U.2 de 3,84 TB (matriz RAID 0).
-
Red:
Red de clúster: 4 puertos OSFP, compatibles con InfiniBand (hasta 400 Gbps) y Ethernet (hasta 400 GbE).
Red de almacenamiento: 2 tarjetas Ethernet de doble puerto NVIDIA ConnectX-7, compatibles con Ethernet (hasta 400 GbE) e InfiniBand (hasta 400 Gbps).
Componentes de la bandeja de GPU
Aquí hay una imagen de los componentes de la bandeja de GPU en un sistema DGX H100.
-
Procesador de gráficos: 8 GPU NVIDIA H100, que proporcionan 640 GB de memoria GPU.
-
NVLink: 4 NVLinks de cuarta generación, que proporcionan 900 GB/s de ancho de banda de GPU a GPU.
La bandeja de la placa GPU sirve como área de ensamblaje fundamental dentro del servidor de IA. En esencia, se encuentra la bandeja de la placa GPU, que abarca elementos esenciales como componentes de GPU, placas de módulos y conmutadores NVS.
Topología del sistema DGX H100
Aquí hay una imagen de la topología del sistema DGX H100, que ilustra las conexiones, configuraciones e interrelaciones entre varios componentes de hardware dentro de un sistema.
Las ventajas funcionales de DGX H100
La Inteligencia Artificial se ha convertido en la solución preferida para abordar desafíos empresariales desafiantes. Para las empresas, la IA no se trata sólo de rendimiento y funcionalidad; también implica una estrecha integración con la arquitectura y las prácticas de TI de la organización. Como pionero en infraestructura de IA, el sistema DGX de NVIDIA proporciona la plataforma de IA más poderosa y completa para hacer realidad estas ideas fundamentales.
El sistema está diseñado para optimizar el rendimiento de la IA, ofreciendo a las empresas una plataforma altamente refinada, sistemáticamente organizada y escalable para permitir avances en el procesamiento del lenguaje natural, sistemas de recomendación, análisis de datos y más.
El DGX H100 ofrece opciones de implementación versátiles, ya sea local para administración directa, ubicado en centros de datos NVIDIA DGX-Ready, alquilado a través de NVIDIA DGX Foundry o accedido a través de proveedores de servicios administrados certificados por NVIDIA. El programa DGX-Ready Lifecycle Management garantiza a las organizaciones un modelo financiero predecible, manteniendo su implementación a la vanguardia de la tecnología. Esto posiciona al DGX H100 como una infraestructura de TI tradicional y fácil de usar, aliviando cargas adicionales para el ocupado personal de TI.
También podría interesarte
Dirección de correo electrónico
-
T568A y T568B: dos estándares de cable de red RJ45
jul 15, 2021
-
¿Qué es un patch panel y por qué lo necesitamos?
jul 6, 2021