Avances en la tecnología DPU: Potenciando las innovaciones futuras

Actualizado el 19 de enero de 2024 por

 283

Con la evolución de las tecnologías de virtualización y computación en la nube, las tarjetas de red también han pasado por cuatro etapas con respecto a la funcionalidad y la estructura del hardware, NIC, SmartNIC, DPU basada en FPGA y NIC DPU SoC. En este artículo, explicaremos los diferentes tipos de tarjetas de red y procesadores que se utilizan en los centros de datos, centrándonos en su hardware, capacidades de programación, desarrollo y aplicación.

La evolución y aplicación de los controladores de interfaz de red (NICs)

La tarjeta de red básica tradicional, también conocida como NIC o adaptador de red, desempeña un papel fundamental en las redes informáticas. Su función principal es convertir datos para una transmisión eficiente entre dispositivos de red. Con el tiempo, los avances han ampliado sus capacidades. Ahora incorpora funciones adicionales y posee capacidades básicas de descarga de hardware, como CRC Check, TSO/UF0, LSO/LR0 y soporte VLAN, entre otras. También es compatible con SR-IOV para virtualización y QoS para mejorar el rendimiento de la red. En cuanto al ancho de banda de la interfaz de red, ha evolucionado desde velocidades de 100M y 1000M para admitir velocidades más altas de 10G, 25G e incluso 100G.

Controladores de interfaz de red (NICs)

En las redes de virtualización de computación en la nube, la tarjeta de red básica tradicional ofrece tres métodos principales para proporcionar acceso a la red a las máquinas virtuales.

1. A través de la pila de protocolos del kernel del sistema operativo, la tarjeta de red reenvía el tráfico entrante a las máquinas virtuales.

2. El controlador en modo de usuario DPDK omite la pila de protocolos del kernel y copia directamente los paquetes de datos a la memoria de la máquina virtual para mejorar el rendimiento.

3. La tecnología SR-IOV virtualiza la tarjeta de red física en múltiples funciones virtuales (VF) asignadas directamente a las máquinas virtuales.

A medida que crece la complejidad de la red con protocolos de túnel como VxLAN y tecnologías de conmutación virtual, los recursos de la CPU se vuelven más exigentes. Las SmartNIC abordan este desafío descargando tareas de procesamiento de red de la CPU, mejorando el rendimiento general de la red.

The Evolution and Application of SmartNIC

Las SmartNICs ofrecen más que las capacidades de transmisión de red que se encuentran en las tarjetas de red básicas tradicionales. Incorporan capacidades de descarga de hardware del plano de datos, como descarga de hardware OVS/vRouter, utilizando FPGA o procesador integrado con FPGA y núcleo de procesador. Estas SmartNIC mejoran la tasa de reenvío de las redes de computación en la nube y alivian la carga de recursos informáticos en la CPU del host.

A diferencia de las tarjetas de red tradicionales, las SmartNIC no incluyen una CPU de uso general. En cambio, dependen de la CPU del host para gestionar el plano de control. El enfoque principal de la aceleración de descarga de SmartNIC es el plano de datos, que abarca tareas como la descarga de ruta rápida para conmutadores virtuales como 0VS/vRouter, descarga de red RDMA, descarga de almacenamiento NVMe-oF y descarga de seguridad del plano de datos IPsec/TLS.

SmartNIC

Sin embargo, a pesar de estos avances, a medida que las velocidades de red continúan aumentando en las aplicaciones de computación en la nube, la CPU del host todavía dedica recursos considerables a la clasificación, el seguimiento y el control del tráfico. Lograr el "consumo cero" de la CPU del host se ha convertido en la siguiente dirección de investigación para los proveedores de nube, con el objetivo de minimizar la participación de la CPU del host en estas tareas.

La evolución y aplicación de la DPU basada en FPGA

La DPU basada en FPGA es una tarjeta de red inteligente que puede descargar datos y tener funciones de control de avión. También es parcialmente programable tanto para el plano de control como para el de datos. En cuanto al hardware, incluye un procesador CPU de uso general basado en FPGA, como por ejemplo una CPU Intel.

En comparación con las SmartNIC, las DPU basadas en FPGA mejoran la arquitectura del hardware al incorporar una unidad de procesamiento de CPU de uso general, lo que da como resultado una arquitectura FPGA+CPU. Esta configuración facilita la aceleración y descarga de varios componentes de la infraestructura, incluida la red, el almacenamiento, la seguridad y la administración. Actualmente, la forma predominante de DPU es la configuración FPGA+CPU. Las DPU basadas en esta arquitectura ofrecen una excelente programabilidad de software y hardware.

FPGA-Based DPU

Durante las primeras etapas del desarrollo de la DPU, la mayoría de los fabricantes optaron por este enfoque. Ofreció tiempos de desarrollo más cortos e iteraciones rápidas, y facilitó la rápida personalización de funciones. Esto permitió a los fabricantes de DPU introducir productos rápidamente y aprovechar oportunidades de mercado. Sin embargo, a medida que el ancho de banda de la red pasó de 25G a 100G, la arquitectura FPGA+CPU DPU encontró limitaciones debido a los procesos del chip y las estructuras FPGA. Estas limitaciones dificultaron el control eficaz del área del chip y el consumo de energía mientras se buscaba un mayor rendimiento. En consecuencia, se obstaculizó el desarrollo continuo de esta arquitectura DPU.

La evolución y aplicación de la NIC DPU SoC

DPU SoC, basado en ASIC (Circuito integrado de aplicación específica), combina el rendimiento de aceleradores dedicados con la programabilidad de procesadores de uso general. A diferencia de las arquitecturas basadas en FPGA, los SoC DPU abordan desafíos en costo, consumo de energía y funcionalidad, especialmente para servidores 100G de próxima generación. Ofrecen ventajas en costo, consumo de energía, alto rendimiento y capacidades de programación flexibles. Los SoC DPU admiten la gestión de aplicaciones, máquinas virtuales, contenedores y aplicaciones bare metal.

DPU SoC NIC

La tecnología DPU está avanzando y los SoC DPU programables de uso general son ahora cruciales en la construcción de centros de datos de los proveedores de nube. Permiten una gestión eficiente de los recursos informáticos y de red, admiten diversos escenarios de computación en la nube y optimizan la utilización de los recursos del centro de datos. Los gigantes de los chips y los principales proveedores de servicios en la nube han realizado importantes inversiones en la investigación, el desarrollo y la utilización de DPU, logrando una notable rentabilidad a través de la exploración continua y la implementación práctica.

DPU en AWS (nube de Amazon)

AWS (Amazon Web Services), uno de los principales proveedores de servicios de computación en la nube, confía en el sistema Nitro DPU como base técnica crucial. El sistema Nitro DPU descarga de manera eficiente funciones de red, almacenamiento, seguridad y monitoreo a hardware y software dedicados. Esto permite que las instancias de servicio accedan a casi todos los recursos del servidor, lo que genera importantes reducciones de costos y mayores ingresos anuales. El sistema Nitro DPU consta de varios componentes:

1. Tarjeta Nitro: Hardware dedicado para red, almacenamiento y control para mejorar el rendimiento general del sistema.

2. Chip de seguridad Nitro: Transfiere funciones de virtualización y seguridad a hardware y software dedicados, reduciendo la superficie de ataque y garantizando una plataforma en la nube segura.

3. Hipervisor Nitro: un programa de administración de hipervisor liviano que administra eficientemente la asignación de memoria y CPU, brindando un rendimiento comparable al bare metal.

DPU en AWS (nube de Amazon)

Al proporcionar funciones clave de red, seguridad, servidor y monitoreo, el sistema Nitro DPU libera recursos de servicio subyacentes para las máquinas virtuales de los clientes. Permite a AWS ofrecer más tipos de instancias básicas e incluso lograr un rendimiento de red de hasta 100Gbps para casos específicos.

NVIDIA DPU

NVIDIA, una destacada empresa de semiconductores reconocida por sus unidades de procesamiento de gráficos (GPU) y computación de alto rendimiento (HPC), adquirió Mellanox, una empresa de dispositivos y chips de red, en abril de 2020 por 6.900 millones de dólares. Tras la adquisición, NVIDIA presentó la serie de DPU BlueField.

La DPU NVIDIA BlueField-3, diseñada específicamente y computación acelerada, hereda las características avanzadas de la DPU BlueField-2. Proporciona hasta conectividad de red de 400G y ofrece capacidades de descarga, aceleración y aislamiento para funciones de gestión, seguridad, almacenamiento y redes definidas por software.

Intel IPU

Intel IPU (unidad de procesamiento de infraestructura) es un dispositivo de red avanzado equipado con aceleradores reforzados y conexiones Ethernet. Utiliza núcleos programables dedicados estrechamente acoplados para acelerar y gestionar funciones de infraestructura. IPU permite la descarga completa de la infraestructura y actúa como punto de control del host para ejecutar aplicaciones de infraestructura, proporcionando una capa adicional de seguridad. La descarga de todos los servicios de infraestructura del servidor a la IPU libera recursos de CPU del servidor y ofrece a los proveedores de servicios en la nube un punto de control independiente y seguro.

Intel IPU

La hoja de ruta de Intel incluye los productos IPU Oak Springs Canyon y Mount Evans. Oak Springs Canyon es un producto IPU basado en FPGA, mientras que Mount Evans IPU es un producto IPU basado en ASIC. Oak Springs Canyon cuenta con una CPU Intel Agilex FPGA y Xeon-D, mientras que Mount Evans, diseñado conjuntamente por Intel y Google, incorpora ASIC para procesamiento de paquetes y 16 núcleos ARM Neoverse N1 para potentes capacidades informáticas.

DPU en la nube de Alibaba

Alibaba Cloud está a la vanguardia de la exploración de tecnología DPU. Durante la Cumbre de la Nube de Alibaba en 2022, presentaron el procesador de infraestructura en la nube CIPU, desarrollado en la arquitectura Shenlong. CIPU hereda la funcionalidad y el posicionamiento de su predecesora, la tarjeta MoC (Micro Server on a Card), que se alinea con la definición de DPU. La tarjeta MoC cuenta con unidades de procesamiento, almacenamiento y E/S independientes y maneja tareas de virtualización de dispositivos, almacenamiento y red. Las tarjetas MoC han pasado por cuatro etapas de desarrollo:

- La primera y segunda generación de tarjetas MoC abordaron el desafío de la virtualización informática sin gastos generales, con la virtualización de redes y almacenamiento implementada en software.

- La tercera generación de tarjetas MoC introdujo funciones mejoradas de reenvío de red, lo que mejoró significativamente el rendimiento de la red.

- La cuarta generación de tarjetas MoC logró una descarga completa de hardware de las operaciones de red y almacenamiento y también admite la capacidad RDMA.

El CIPU de Alibaba Cloud, diseñado para el sistema Feitian, es crucial para construir una nueva generación de sistemas integrales de arquitectura de computación en la nube de software y hardware.

DPU en motor volcán

Volcano Engine se dedica a promover la tecnología DPU de desarrollo propio, utilizando un enfoque integrado de virtualización suave y dura para servicios informáticos elásticos y escalables de alto rendimiento. Su servidor bare metal elástico de segunda generación y su servidor en la nube de tercera generación cuentan con sus DPU de desarrollo propio. Estas DPU se han sometido a pruebas exhaustivas para garantizar sus capacidades e idoneidad para diversas aplicaciones. La instancia de EBM de segunda generación, lanzada en 2022, combina la estabilidad y seguridad de las máquinas físicas con la flexibilidad de las máquinas virtuales, lo que representa una nueva generación de servidores en la nube de alto rendimiento. La instancia ECS de tercera generación, lanzada en la primera mitad de 2023, integra la última arquitectura DPU de Volcano Engine con su conmutador virtual patentado y tecnología de virtualización, lo que mejora significativamente el rendimiento de E/S de red y almacenamiento. Al combinar su DPU, conmutador virtual y tecnología de virtualización de desarrollo propio, Volcano Engine tiene como objetivo ofrecer soluciones informáticas de alto rendimiento escalables y eficientes que satisfagan las demandas cambiantes de la computación en la nube.