中文

DDC技术:AIGC网络的革命性解决方案

更新于 2024年02月06日 by
338

2023年,人工智能生成内容(AIGC)技术将蓬勃发展,其中ChatGPT作为一个典型案例,在文本生成、代码开发和诗歌创作等多个领域引起行业变革。DDC技术对改变网络格局具有创新和突破性意义,很大程度上提升了效率和连接性。本文将介绍这一AIGC网络的新一代革命性解决方案——DDC技术。

GPU负载共享的三种方法

前述AIGC大型模型的卓越能力不仅来自于其庞大的数据量,也源于算法的不断演进和进步。在训练这些大型模型时,通常需要利用多个GPU来分担工作负载。为实现高效的负载共享,采用3种方法:数据并行、张量并行和流水线并行。

数据并行

数据并行是将模型的输入数据分成多个小批次,并在不同的GPU上并行处理这些小批次。每个GPU拥有完整的模型副本,并能独立处理小批次。通过GPU之间的通信和同步,模型参数得以更新和整合。数据并行适用于具有大规模训练数据集的模型,可以加快训练过程,提高模型的收敛速度。

张量并行

当模型过大无法被容纳在单个处理器的内存中时,通常会采用张量并行方法。在这种方法中,模型的不同部分被分配给不同的GPU,每个GPU负责处理一部分输入数据并执行相应的计算。通过GPU之间频繁的通信和同步,输出结果被收集和整合,但这可能导致较高的通信开销。为了最小化交换延迟,张量并行方法要求处理器之间以高速连接的状态进行通信。

流水线并行

流水线并行将模型的计算流程分解为多个阶段,在不同的GPU上以流水线方式并行执行这些阶段。每个GPU处理整体模型计算的特定部分,并将处理结果传递给下一个GPU进行进一步的计算。这种方法可以减少整体训练时间,对于具有复杂计算流程和多个连续阶段的模型尤其有益。但是需要对流水线进行精心管理,其中一些处理器为避免产生过大的停滞,可能会暂停工作去等待和依赖计算结果。有时,这三种并行策略会结合使用,以改进训练过程。

支持AIGC运行的三种传统解决方案

在传统解决方案中,支持AIGC运行的有3种常见解决方案:InfiniBand、RDMA和帧交换机。

InfiniBand网络

InfiniBand网络是一种高速互连技术,广泛应用于高性能计算和数据中心。它具有高带宽、低延迟和无拥塞等优点。然而,与传统以太网网络相比,InfiniBand网络的成本较高,价格是其几倍。

InfiniBand网络

RDMA网络

RDMA(远程直接内存访问)是一种新型的通信机制。在RDMA方案中,数据可以直接与网卡通信,绕过CPU和复杂的操作系统,这在增强数据吞吐量的同时降低了延迟。过去,RDMA主要在InfiniBand网络上实现。现在,它正在逐步移植到以太网上。当前主流的网络方案是基于RoCE v2协议构建支持RDMA的网络。

请参考《RDMA指南》

RDMA网络

帧交换机

帧交换机是专门设计用于处理基于帧的协议(如以太网)的网络交换机。然而,由于可扩展性有限、设备功耗高和故障域广泛等问题,这种技术仅适用于小规模的AI计算机集群部署。

新一代AIGC网络:DDC技术

由于传统以太网存在性能瓶颈,传统方法仍然面临拥塞和丢包等性能损失,并且可扩展性不足。为应对这些限制,DDC解决方案应运而生。DDC技术解构传统的帧交换机,增强其可扩展性,并使得网络规模可以根据AI集群的大小进行定制。

DDC技术不仅在规模和带宽吞吐方面满足大规模AI模型训练的网络需求,还解决了网络运营其他关键方面的问题。但网络运营不仅仅涉及这两个方面,它还需要在延迟、负载均衡、管理效率等方面进行优化。为了解决这些问题,DDC采用了以下技术策略:

VOQ+基于单元的转发技术抵御丢包

在网络经历突发流量的情况下,可能导致接收端处理缓慢,进而导致拥塞和丢包。DDC系统采用VOQ+基于单元的转发机制,为此提供了强大的解决方案。让我们深入了解具体的过程:

发送端在接收到数据包后,将其分类并存储到虚拟输出队列(VOQ)中。网络连接点(NCP)在分段和动态负载平衡之前检查缓冲区容量。在临时处理限制情况下,数据包被存储在VOQ中,提高了通信稳定性和带宽利用率。

VOQ+

PFC单跳部署避免死锁

RDMA无丢包网络利用PFC技术进行流量控制,可以为以太网链路创建具有分配优先级的多个虚拟通道。然而,PFC的实现在死锁这一问题上仍具有一定挑战。

PFC

在DDC网络的背景下,考虑所有的网络连接点(NCPs)和网络通信功能(NCFs)作为一个协同的整体,消除对多级交换机的需求,从而带来了独特的优势。因此,DDC架构有效地避免了与PFC相关的死锁问题,确保了网络的无缝和不间断的运行。

PFC单跳部署

分布式操作系统提高可靠性

在DDC架构中,管理功能在网络控制卡(NCC)的控制下进行集中管理。然而,这种集中控制存在单点故障的潜在风险。为了减轻这个风险,DDC采用了分布式操作系统,为每个网络连接点(NCP)和网络通信功能(NCF)提供独立的管理能力。这种分布式的方法包括独立的控制平面和管理平面,以增强系统的可靠性并简化部署过程。

结论

DDC通过其独特的技术策略有效地应对与大规模AI模型训练相关的网络需求。此外DDC还对其他方面进行优化,以确保网络在各种复杂场景下的稳定性和效率。

相关文章推荐

技术博文
See profile for Jesse.
Jesse
光分路器光衰多少,如何计算和测量?
2022年01月25日
14.7k
技术博文
技术博文
See profile for Audrey.
Audrey
FTTH网络应如何设计分层与分光比?
2022年01月25日
3.7k
技术博文
技术博文
技术博文
See profile for Audrey.
Audrey
揭秘光分路器类型及选择
2022年01月24日
3.3k
技术博文
See profile for Audrey.
Audrey
一文教您认识光分路器
2022年01月24日
4.7k
技术博文
See profile for Jesse.
Jesse
家庭网络怎么布线?家用网线布线指南
2021年12月31日
1.9k
技术博文
技术博文
技术博文
See profile for Audrey.
Audrey
数据中心预端接主干铜缆解决方案
2021年12月31日
1.8k