中文

NVIDIA NVLink概述

更新于 2024年02月19日 by
4.1k

NVIDIA NVLink已成为高性能计算(HPC)和人工智能领域的关键技术。本文深入探讨了NVLink的复杂性,并介绍NVSwitch芯片、NVLink服务器和NVLink交换机,以揭示其在不断演进的先进计算领域中的重要性。

什么是NVIDIA NVLink

NVLink是一种解决服务器内GPU之间通信限制的协议。与传统的PCIe交换机不同,NVLink带宽有限,可以在服务器内的GPU之间实现高速直接互连。第四代NVLink提供更高的带宽,每条通道达到112Gbps,比PCIe Gen5通道速率快三倍。

NVIDIA NVLink

NVLink旨在为GPU直接互连提供简化、高速、点对点的网络,相比传统网络减少了开销。通过在不同层次提供CUDA加速,NVLink减少了与通信相关的网络开销。NVLink随着GPU架构的演进不断发展,从P100的NVLink1到H100的NVLink4,如图所示。NVLink 1.0、NVLink 2.0、NVLink 3.0和NVLink 4.0之间的关键区别在于连接方式、带宽和性能。

NVLink

NVSwitch芯片

NVSwitch芯片是一种物理芯片,类似于交换机ASIC,可通过高速的NVLink接口连接多个GPU,提高服务器内的通信和带宽。第三代NVIDIA NVSwitch可支持以900 GB/s的速率互连每对GPU。

NVSwitch芯片

NVSwitch3芯片具有64个NVLink4端口,提供总共12.8 Tbps的单向带宽或3.2 TB/s的双向带宽。NVSwitch3芯片的独特之处在于其集成了SHARP功能,对多个GPU单元的计算结果进行聚合和更新,减少网络数据包并提高计算性能。

NVSwitch3芯片

NVLink服务器

NVLink服务器采用NVLink和NVSwitch技术连接GPU,通常可在英伟达(NVIDIA)的DGX系列服务器或具有类似架构的OEM HGX服务器中找到。这些服务器利用NVLink技术,提供出色的GPU互联性、可扩展性和高性能计算能力。2022年,英伟达(NVIDIA)宣布推出第四代NVIDIA® DGX™系统,这是世界上首个采用新的NVIDIA DGX H100服务器构建的AI平台。

NVLink服务器

因此,NVLink服务器在科学计算、人工智能、大数据处理和数据中心等关键领域已经变得不可或缺。通过提供强大的计算能力和高效的数据处理,NVLink服务器不仅满足了这些领域的严格要求,还推动了这些领域的进步和创新。

NVLink服务器

NVLink交换机

2022年,英伟达(NVIDIA)将NVSwitch芯片独立出来,并制作成NVLink交换机,用于连接主机之间的GPU设备。它采用了1U尺寸设计,具有32个OSFP端口;每个OSFP端口包含8个112G PAM4通道,每个交换机内置2个NVSwitch3芯片。

NVLink交换机

NVLink网络

NVSwitch物理交换机将多个NVLink GPU服务器连接成一个大型Fabric网络,即NVLink网络,解决了GPU之间的高速通信带宽和效率问题。每个服务器都有独立的地址空间,为NVLink网络中的GPU提供数据传输、隔离和安全保护。当系统启动时,NVLink网络通过软件API自动建立连接,并可以在运行过程中更改地址。

NVLink网络

该图比较了NVLink网络与传统以太网网络,演示了如何创建独立于IP以太网并专用于GPU服务的NVLink网络。

概念
传统实例
NVLink网络
物理层
400G电/光介质
定制固件 OSFP
数据链路层
以太网
NVLink定制芯片上的硬件和固件
网络层
IP
新NVLink网络寻址和管理协议
传输层
TCP
NVLink定制芯片上的硬件和固件
会话层
Socket
SHARP组 CUDA导出数据结构的网络地址
应用层
HTTP/FTP
AI框架或用户应用程序
网卡
PCIe网卡 (网卡或芯片)
嵌入在GPU和NVSwitch中的函数
RDMA卸载
网卡卸载引擎
GPU内部复制引擎
 

InfiniBand网络 VS NVLink网络

InfiniBand网络和NVLink网络是在高性能计算和数据中心应用中使用的两种不同的网络技术。它们有以下区别:

架构和设计:InfiniBand网络是一种采用多通道、高速串行连接的开放标准网络技术,支持点对点和多播通信。NVLink网络是由英伟达(NVIDIA)开发的专有技术,旨在实现GPU之间的高速直连。

应用场景:InfiniBand网络广泛应用于高性能计算集群和大规模数据中心。NVLink网络主要用于大规模GPU集群、HPC、人工智能等领域。

带宽和延迟:InfiniBand网络提供高带宽和低延迟的通信,提供更高的吞吐量和更短的传输延迟。NVLink网络为GPU之间提供更高的带宽和更低的延迟,以支持快速数据交换和协同计算。以下是使用NVLink网络的H100和使用InfiniBand网络的A100之间的带宽比较。

InfiniBand网络

结论

NVIDIA NVLink作为一项开创性的技术,彻底改变了高性能计算和人工智能领域。它能够增强GPU之间的通信,提高性能,并实现无缝的并行处理,成为众多高性能计算和人工智能应用中不可或缺的组成部分。随着先进计算领域的不断发展,NVLink的重要性和影响力将不断扩大,推动技术创新。

相关文章推荐

技术博文
See profile for Jesse.
Jesse
光分路器光衰多少,如何计算和测量?
2022年01月25日
14.7k
技术博文
技术博文
See profile for Audrey.
Audrey
FTTH网络应如何设计分层与分光比?
2022年01月25日
3.7k
技术博文
技术博文
技术博文
See profile for Audrey.
Audrey
揭秘光分路器类型及选择
2022年01月24日
3.3k
技术博文
See profile for Audrey.
Audrey
一文教您认识光分路器
2022年01月24日
4.7k
技术博文
See profile for Jesse.
Jesse
家庭网络怎么布线?家用网线布线指南
2021年12月31日
1.9k
技术博文
技术博文
See profile for George.
George
800G以太网发展新趋势
2024年05月08日
31
技术博文
See profile for Audrey.
Audrey
数据中心预端接主干铜缆解决方案
2021年12月31日
1.8k