ChatGPT 引爆 AI 算力需求，数据中心如何成功应对？

发布于 2023年12月19日 by

 1.4k

在全球人工智能热潮中，以 ChatGPT 为代表的 AIGC 技术引发了广泛关注。人工智能和机器学习等技术对数据规模及处理速度等提出了更高要求。在数据成为主要生产要素的当下和未来，如何跟上时代的发展步伐，构建适应 AI 需求的数据中心，已成为当务之急。本文将探讨AI发展浪潮中，传统数据中心如何改进与优化配置，满足市场需求的变革。

AI应用的特点

几十年来，传统的云数据中心基础设施虚拟化不断发展。这种进步使得系统和应用程序能够根据需要快速启动，以满足各种用户和业务应用程序的需求。此外，它还能够支持通过商品级以太网连接的小型工作负载。尽管以太网具备广泛而全面的功能，但其性能并不高，不适合扩展到多个节点，特别是对于高性能计算的需求。

在此基础上，为了有针对性地配置数据中心满足AI应用的需求，首先要了解AI应用的特点及要求。

1. 分布式计算

为更好应对部署生成式 AI 应用程序及训练基础 AI 模型带来的持续增长的计算量需求，AI模型通常采用分布式计算。将工作负载分布在多个互连的计算节点上来加速训练过程，确保消息及时到达所有参与节点方面。此外，由于单个分布式任务的运行时间由参与速度最慢节点的运行时间决定，这使得尾部延迟（最后一条参与消息的到达时间）变得至关重要，对网络扩展及处理大量数据的能力也提出了更高要求。

2. 算力需求

算力是训练大模型的底层动力源泉，是打造大模型生态的必备基础。

随着 AI 模型规模的不断扩大，对算力的需求也在急剧增长。根据 OpenAI 的数据，模型计算量的增长速度远超过硬件算力的增长速度，形成了巨大的算力缺口。这个缺口主要体现在两个方面：

数据传输速度：随着模型规模的增大，训练过程中需要处理的数据量也在增大。这就对数据传输速度提出了更高的要求。传统的硬盘和网络传输速度已经无法满足大规模数据的传输需求，因此，对更快的新型存储设备和传输技术（如 NVMe、InfiniBand 等）的需求正逐步增加。
存储需求：大规模 AI 模型的训练需要大量的存储空间。以 1T 参数模型为例，使用 16bit 精度存储，仅模型参数就需要 2TB 的存储空间。此外，训练过程中产生的中间变量（如激活值、梯度、优化器状态等）也会占用大量存储。一个使用 Adam 优化器的训练过程，中间变量的数量会是模型参数量的 7 倍。这就要求训练系统具备极高的存储能力和数据处理能力。

3. 并行计算模式

AI大模型在训练过程中，为提高效率，通常采用数据并行、流水线并行和张量并行等多种并行计算模式。这些并行计算模式可以在多个计算设备间进行高效的集合通信，以加快训练速度。在大规模训练集群中，设计低时延、高吞吐的集群组网方案是提升AI分布式训练效率的关键。

数据中心如何构建 AI 网络

了解AI应用在网络拓展、传输、存储等方面提出的要求，针对性构建AI网络可从以下几个方面考虑：

1. 无损网络和 RDMA

无损网络是确保数据包准确到达目的地、不丢失或损坏的最佳选择。随着GPU计算和大规模AI用例在云环境中的普及，融合以太网的RDMA（RoCE）和优先级流量控制（PFC）等无损网络实现，使得以太网成为实用的解决方案。

飞速（FS）NVIDIA® InfiniBand 网卡配有基于融合以太网 (RoCE) 的RDMA，支持通过网络进行高速、低延迟的数据传输。它允许数据直接在远程系统的内存、GPU 和存储之间传输，而不涉及这些系统的 CPU，从而实现了更高效的数据传输。

2. 自适应路由、多路径和数据包喷涂

由于AI工作负载产生少量大型数据流占用大量链路带宽。为避免这些大数据流路由到到同一链路导致的拥塞和高延迟，我们需要将自适应路由算法与ECMP结合，以实现网络数据动态负载均衡。此外，路由选择需要非常精细，以避免碰撞。但如果路由逐流完成，仍有可能发生拥塞。因此，最佳策略是采用数据包喷洒（逐个数据包路由）的方式，使数据包无序到达目的地。

3. 算力支持

随着大模型参数量从百亿、千亿向万亿演进，新的人工智能产业竞争，将逐渐向算力环节聚焦。为满足急剧提升的网络带宽和高速率需求，光模块单端口的速率也发展至800G。飞速（FS）NVIDIA InfiniBand MMA4Z00-NS兼容 800GBASE-SR8 OSFP多模光模块，专为800Gb/s 2xNDR InfiniBand系统设计，最大传输速率可达850Gbps。同时顶部配有散热片，助力AI等高速运算应用正常运行。

IB 光模块

4. 拥塞控制

在不同AI同时运行的云环境中，可能会出现网络堵塞，尤其是当多个发送方将数据传给同个目标时。这种网络拥塞不仅会导致更高的延迟和有效带宽的降低，还可能会影响到相邻租户。

这种情况下，除了传统的拥塞控制方法显式拥塞通知（ECN），还需要对传输数据的网络设备（NIC 或 DPU）进行计量。飞速（FS）NVIDIA MCX653106A-HDAT ConnectX®-6 InfiniBand/VPI网卡具有可编程拥塞控制接口，提供端到端的QoS和拥塞控制，能够更好地预测及消除拥塞。

5. 性能隔离和安全性

为了提供性能隔离和防止网络不公平现象，共享数据包缓冲区起着关键作用。通用共享缓冲区为交换机上的每个端口提供相同的缓存访问，可以提供混合AI云工作负载所需的可预测性和一致的低延迟。

在多租户环境中，我们必须高度重视性能隔离与零信任架构在网络安全方面的作用。为确保静态与动态数据的安全，我们必须采取相应措施，并运用高效加密和身份验证工具强化安全防护，同时确保性能不受影响。

随着 ChatGPT、数字经济的蓬勃兴起，企业对资源管理、性能和用户体验的要求不断提高。为了更好地处理和分析大量的数据，为企业提供更准确、更智能的决策支持，数据中心升级转型、构建AI网络已成为必然选择。