Español

InfiniBand vs. RoCE: ¿Cómo elegir una red para centro de datos?

Actualizado el 21 de diciembre de 2023 por
161

En los últimos años, el HPC ha logrado avances significativos, impulsando una amplia gama de aplicaciones como el procesamiento del lenguaje natural, la visión por computadora, los vehículos autónomos, los asistentes virtuales, los sistemas de recomendación y el diagnóstico médico. A medida que las aplicaciones de HPC evolucionan, los centros de datos enfrentan demandas cada vez mayores de redes de baja latencia y alto ancho de banda que puedan manejar de manera eficiente cargas de trabajo complejas.

Introducción a las redes InfiniBand

La red InfiniBand facilita la transferencia de datos a través de adaptadores o conmutadores InfiniBand. Los componentes clave incluyen el administrador de subred (SM), las tarjetas de red InfiniBand, los conmutadores InfiniBand y los cables InfiniBand.

NVIDIA es un fabricante importante que admite una variedad de tarjetas de red InfiniBand, incluidas las tarjetas HDR de 200 Gbps de rápido avance y las tarjetas NDR de 400 Gbps implementadas comercialmente. La siguiente figura muestra las tarjetas de red InfiniBand de uso común.

Infiniband

Infiniband

Los conmutadores InfiniBand no ejecutan ningún protocolo de enrutamiento y el administrador de subred centralizado calcula y distribuye toda la tabla de reenvío de la red. Además de la tabla de reenvío, el administrador de subred es responsable de configurar aspectos dentro de la subred InfiniBand, como la partición y la calidad de servicio (QoS). Para establecer conexiones entre conmutadores y entre conmutadores y tarjetas de red, las redes InfiniBand requieren cables y módulos ópticos dedicados.

FS se convierte en NVIDIA Elite Partner desde 2022. Podemos proporcionar un conjunto completo de productos originales basados en soluciones de red sin pérdidas Infiniband. Los switches Infiniband de FS pueden manejar un rendimiento de conmutador agregado de 16Tb/s y una latencia de conmutador inferior a 130ns. Los adaptadores Infiniband de FS admiten velocidades NDR, NDR200, HDR, HDR100, EDR, FDR y SDR InfiniBand. Y los transceptores IB de FS pueden cumplir requisitos de conectividad que van desde distancias de 0,5 ma 2 km y ofrecen soporte técnico gratuito. Con un servicio al cliente superior y productos que reducen los costos y la complejidad al mismo tiempo que brindan un rendimiento excepcional a los clústeres de servidores, FS es su opción preferida.

Características de las soluciones de red InfiniBand

Red nativa sin pérdidas

Las redes InfiniBand emplean un mecanismo de señalización basado en créditos para evitar inherentemente el desbordamiento del búfer y la pérdida de paquetes. Antes de iniciar la transmisión de paquetes, el extremo emisor se asegura de que el extremo receptor posea créditos suficientes para acomodar la cantidad de paquetes correspondiente. Cada enlace de la red InfiniBand está equipado con un búfer predefinido. La transmisión de datos desde el extremo emisor está limitada por el tamaño del búfer disponible en el extremo receptor. Al finalizar el reenvío, el extremo receptor libera el búfer, actualizando constantemente el tamaño del búfer disponible actualmente y transmitiéndolo de regreso al extremo emisor. Este mecanismo de control de flujo a nivel de enlace garantiza que el extremo emisor nunca abrume la red con datos excesivos, evitando efectivamente el desbordamiento del búfer y la pérdida de paquetes.

Infiniband

Capacidad de expansión de la tarjeta de red

El enrutamiento adaptativo de InfiniBand se basa en el enrutamiento dinámico por paquete, lo que garantiza una utilización óptima de la red en implementaciones extensas. Los casos notables de grandes clústeres de GPU en redes InfiniBand incluyen aquellos en Baidu Cloud y Microsoft Azure.

Actualmente, varios proveedores importantes ofrecen soluciones de red InfiniBand y equipos asociados en el mercado. NVIDIA domina este sector con una cuota de mercado superior al 70%. Otros proveedores importantes incluyen:

  • Intel Corporation: Ofrece una gama de productos y soluciones de red InfiniBand.

  • Cisco Systems: Un conocido fabricante de equipos de red que ofrece conmutadores InfiniBand y productos relacionados.

  • Hewlett Packard Enterprise (HPE): Una destacada empresa de TI que ofrece diversas soluciones de red InfiniBand, incluidos adaptadores, conmutadores y servidores.

Estos proveedores ofrecen productos y soluciones adaptados a los diversos requisitos de los usuarios, admitiendo implementaciones de red InfiniBand en diversas escalas y escenarios de aplicaciones.

Introducción a las redes RoCE v2

Mientras que una red InfiniBand depende de un sistema administrado centralmente con un administrador de subred (SM), una red RoCE v2 opera como una red completamente distribuida, que comprende conmutadores y NIC compatibles con RoCEv2, generalmente organizados en una arquitectura de dos niveles.

Infiniband

Varios fabricantes ofrecen tarjetas de red compatibles con RoCE, entre los que se incluyen proveedores clave como NVIDIA, Intel y Broadcom. Las tarjetas PCIe sirven como la forma predominante de tarjetas de red para servidores de centros de datos. Las tarjetas RDMA generalmente cuentan con una velocidad PHY de puerto que comienza en 50Gbps, y las tarjetas de red comerciales disponibles actualmente pueden alcanzar velocidades de puerto único de hasta 400Gbps.

Infiniband

La mayoría de los conmutadores de centros de datos actualmente admiten la tecnología de control de flujo RDMA que, cuando se combina con tarjetas de red habilitadas para RoCE, facilita la comunicación RDMA de extremo a extremo. Los principales proveedores mundiales de conmutadores para centros de datos, como Cisco, Hewlett Packard Enterprise (HPE) y Arista, ofrecen soluciones de conmutadores para centros de datos confiables y de alto rendimiento para satisfacer las demandas de los centros de datos a gran escala. Estas empresas poseen una amplia experiencia en tecnología de redes, optimización del rendimiento y escalabilidad, lo que les ha valido un amplio reconocimiento y adopción en todo el mundo.

El corazón de los conmutadores de alto rendimiento reside en los chips de reenvío que emplean. En el mercado actual, los chips de la serie Tomahawk de Broadcom se utilizan ampliamente como chips de reenvío comerciales. Entre ellos, los chips de la serie Tomahawk3 prevalecen en los conmutadores actuales, con un aumento gradual de conmutadores que admiten los chips más nuevos de la serie Tomahawk4.

Infiniband

RoCE v2 opera a través de Ethernet, lo que permite el uso de fibras ópticas y módulos ópticos Ethernet tradicionales.

Características de la solución de red ROCE v2

En comparación con InfiniBand, RoCE presenta las ventajas de una mayor versatilidad y costes relativamente más bajos. No solo sirve para construir redes RDMA de alto rendimiento, sino que también resulta útil en las redes Ethernet tradicionales. Sin embargo, configurar parámetros como Headroom, PFC (control de flujo basado en prioridades) y ECN (notificación explícita de congestión) en los conmutadores puede plantear complejidad. En implementaciones extensas, especialmente aquellas que cuentan con numerosas tarjetas de red, el rendimiento general de las redes RoCE puede presentar una ligera disminución en comparación con las redes InfiniBand.

Varios proveedores de conmutadores brindan soporte para RoCE y, actualmente, la serie de tarjetas de red ConnectX de NVIDIA tiene una participación de mercado sustancial en términos de compatibilidad con RoCE.

InfiniBand vs. RoCE v2

Desde un punto de vista técnico, InfiniBand incorpora varias tecnologías para mejorar el rendimiento del reenvío de red, reducir el tiempo de recuperación de fallas, mejorar la escalabilidad y simplificar la complejidad operativa.

Infiniband

En escenarios empresariales prácticos, RoCEv2 sirve como una buena solución, mientras que InfiniBand destaca como una solución excelente.

En cuanto al rendimiento empresarial: InfiniBand tiene una ventaja en el rendimiento empresarial a nivel de aplicación debido a su menor latencia de extremo a extremo en comparación con RoCEv2. Sin embargo, el rendimiento de RoCEv2 también es capaz de cumplir con los requisitos de rendimiento empresarial de la mayoría de los escenarios de informática inteligente.

Infiniband

En cuanto a la escala empresarial:InfiniBand puede admitir clústeres de GPU con decenas de miles de tarjetas y, al mismo tiempo, mantener el rendimiento general sin degradación. Tiene una cantidad significativa de casos de uso comercial en la industria. Las redes RoCEv2 pueden admitir clústeres con miles de tarjetas sin una degradación significativa del rendimiento general de la red.

Respecto a las operaciones y mantenimiento del negocio: InfiniBand demuestra más madurez que RoCEv2 y ofrece funciones como aislamiento multiinquilino y capacidades de diagnóstico operativo..

En cuanto a los costes empresariales: InfiniBand conlleva un coste mayor que RoCEv2, principalmente debido al elevado coste de los conmutadores InfiniBand en comparación con los conmutadores Ethernet..

Respecto a los proveedores empresariales: NVIDIA es el principal proveedor de InfiniBand, mientras que existen varios proveedores de RoCEv2.

Conclusión

En resumen, cuando se trata del complejo proceso de selección de tecnología de red para centros informáticos inteligentes, InfiniBand emerge como la solución preferida, ofreciendo ventajas sustanciales al entorno informático.

InfiniBand muestra constantemente un rendimiento y confiabilidad sobresalientes, particularmente en entornos informáticos de alto rendimiento. Mediante la adopción de InfiniBand, los centros informáticos inteligentes pueden desbloquear capacidades de transmisión de datos de baja latencia y gran ancho de banda, fomentando una computación y un procesamiento de datos más eficientes. Esto, a su vez, se traduce en la prestación de servicios y experiencias de usuario excepcionales. De cara al futuro, los centros de computación inteligentes están preparados para continuar su exploración y adopción de tecnologías de red avanzadas, elevando constantemente las capacidades informáticas e impulsando la investigación científica y la innovación.

También podría interesarte

Conocimiento
Conocimiento
See profile for Sheldon.
Sheldon
¿Qué es el puerto SFP del switch Gigabit?
ene 29, 2023
50.4k
Conocimiento
Conocimiento
Conocimiento
See profile for Sheldon.
Sheldon
Análisis de PON: Qué es OLT, ONU, ONT y ODN
oct 22, 2018
42.4k
Conocimiento
See profile for Migelle.
Migelle
Switch PoE vs PoE+ vs PoE++: ¿Cómo elegir?
ene 18, 2022
29.5k
Conocimiento
Conocimiento
Conocimiento
Conocimiento
See profile for Vincent.
Vincent
¿Qué es un SFP BiDi y tipos de SFP BiDi?
mar 31, 2022
19.1k
Conocimiento
See profile for Sheldon.
Sheldon
RIP vs OSPF: ¿Cuál es la diferencia?
jul 9, 2021
31.5k