繁體中文 



分析高性能計算網絡中GPU與光模組的比例和需求

更新於 2024年01月12日 by

Roy

 3.7k

市場上存在多種計算光模組與GPU比例的方法，導致結果不相同。造成這些差異的主要原因是不同網絡結構中光模組數量的波動。所需的光模組的準確數量主要取決於幾個關鍵因素。

網卡型號

主要包括兩個網卡，ConnectX-6 （200Gb/s，主要用於A100）和ConnectX-7 （400Gb/s，主要用於H100）。

同時，下一代ConnectX-8800Gb/s預計將於2024年發布。

交換機型號

主要包括兩種類型的交換機，QM 9700交換機（32口OSFP 2x400Gb/s），共64通道400Gb/s傳輸速率，總吞吐率達到51.2Tb/s。

交換機

而QM8700交換機（40口QSFP56，共40個通道，傳輸速率為200Gb/s，總吞吐率為16Tb/s）。

交換機

單元數量（可擴展單元）

單元數量決定了交換機網絡架構的配置。小批量採用兩層結構，而大批量採用三層結構。

H100 SuperPOD：每臺由32個節點（DGX H100服務器）組成，最多支持4臺組成集群，採用雙層交換架構。

A100 SuperPOD：每臺由20個節點（DGX A100服務器）組成，最多支持7臺組成集群。如果單元數超過5個，則需要三層交換架構。

拓展單元

四大網絡配置下的光模組需求

A100+ConnectX6+QM8700三層網絡：比例1：6，全部採用200G光模組。

A100+ConnectX6+QM9700兩層網絡：1：0.75的800G光模組+1：1的200G光模組。

H100+ConnectX7+QM9700兩層網絡：1：1.5的800G光模組+1：1的400G光模組。

H100+ConnectX8（尚未發布）+QM9700三層網絡：比例1：6，全部採用800G光模組。

光模組市場逐步增長：

假設2023年H100出貨量為30萬臺，A100出貨量為90萬臺，總需求量為315萬臺200G、30萬臺400G、787.5萬臺800G光模組。這會導致市場的顯著增長，預計規模將達到13.8億美元

以2024年出貨150萬臺H100和150萬臺A100為例，200G總需求量為75萬臺，400G光模組75萬臺，800G光模組675萬臺。這將導致市場的顯著增長，預計規模將達到49.7億美元，大約相當於2021年光模組行業的總市場規模。

以下是上述每種情況的細緻計算分解：

第一種情況：A100+ConnectX6+QM8700三層網絡

A100 GPU設計有8個計算接口，如圖所示，左側有4個接口，右側有4個接口。目前，A100 GPU的大部分出貨量都是與ConnectX-6配合使用，以實現高達200Gb/s的連接速率。

計算接口

在首層架構中，每個節點有8個接口（端口），節點連接8個葉交換機。每20個節點組成一個單元（SU）。因此，在第一層中，總共需要8xSU臺葉交換機，以及8xSUx20根線纜和2x8xSUx20個200G光模組。

網絡架構

在第二層架構中，由於採用了無阻塞設計，上行速率等於下行速率。在第一層中，總單向傳輸速率為200G乘以線纜數量。由於第二層也採用單纜200G傳輸速率，因此第二層的線纜數量應與第一層相同，需要8xSUx20線纜和2x8xSUx20 200G光模組。所需脊交換機的數量是通過將線纜數量除以葉交換機數量來計算的，得出所需的（8xSUx200）/（8xSU）脊交換機。但是，當沒有足夠的葉交換機時，為了節省脊交換機的數量，可以在葉和脊交換機之間建立多個連接（只要不超過40個接口的限制）。因此，當單元數為1/2/4/5時，所需的脊交換機數量為4/10/20/20，所需的光模組數量為320/640/1280/1600。脊交換機的數量不會成比例增加，但光模組的數量會按相同比例增加。

當系統擴展到七個單元時，實施第三層架構變得至關重要。由於其非阻塞配置，第三層中所需的線纜數量與第二層的線纜數量保持不變。

英偉達（NVIDIA）建議的SuperPOD藍圖需要在七個單元之間集成網絡，採用第三層架構及核心交換機。詳細的圖表說明了不同層的不同數量的交換機以及不同單元數所需的相關布線。

數量關係

配置140臺服務器，參與的A100 GPU總數為1120，計算方式為服務器數量140乘以8。為了支持此配置，需要部署了140臺QM8790交換機以及3360根線纜。此外，該配置需要使用6720個200G光模組。A100 GPU與200G光模組的比例為1:6，具體數量為1120個GPU對應6720個光模組。

第二種情況：A100+ConnectX6+QM9700兩層網絡

目前，該配置方案並不是建議配置的一種。儘管如此，隨着時間的推移，越來越多的A100 GPU可能會選擇通過QM9700交換機進行連接。這種轉變將減少所需光模組數量，但會產生對800G光模組的需求。主要區別可以在第一層的連接中看到，目前使用8根獨立200G線纜的方法將被使用QSFP轉OSFP適配器替代，每個適配器能夠進行兩個連接，從而實現1對4的連接。

QSFP轉OSFP適配器

在第一層中：對於具有7個單元和140個服務器的集群，總共有140x8=1120個接口。這相當於280根1-4線纜，因此需要280個800G和1120個200G光模組。總共需要12臺QM9700交換機。

在第二層：僅使用800G連接時，需要280x2=5600個800G光模組以及9臺QM 9700交換機。

因此，對於140臺服務器和1120臺A100 GPU配置，總共需要21臺交換機（12+9），以及840個800G光模組和1120個200G光模組。

A100 GPU與800G光模組的比例為1120：840，簡化為1：0.75。A1000 GPU和200G光模組的比例為1：1。

第三種情況：H100+ConnectX7+QM9700兩層網絡

H100架構的一個顯著特點是，儘管該卡包含8個GPU，但配備了8個400G網卡，這些網卡組合成4個800G接口。這種融合帶來了對800G光模組的巨大需求。

在第一層中，根據英偉達（NVIDIA）推薦的配置，建議在服務器接口連接1個800G光模組。這可以通過使用帶有兩根光纜（MPO）的雙端口連接來實現，其中每根光纜都插入單獨的交換機。

推薦配置

因此，在第一層中，每個單元由32臺服務器組成，每臺服務器連接2x4=8臺交換機。在具有4個單元的SuperkPOD中，第一層總共需要4x8=32臺葉交換機。

英偉達（NVIDIA）建議為管理目的（UFM）保留一個節點。由於對光模組的使用影響有限，因此我們以4臺設備、總共128臺服務器為基準進行近似計算。

第一層共需要4x128=512個800G光模組和2x4x128=1024個400G光模組。

4個單元的SuperkPOD

在第二層，交換機使用800G光模組直接連接。每個葉交換機都以32x400G的單向速率向下連接。為保證上行和下行速率一致，上行連接需要16x800G的單向速率。這需要16個脊交換機，因此總共需要4x8x162=1024個800G光模組。

在這種架構中，基礎設施總共需要1536個800G光模組和1024個400G光模組。考慮到SuperPOD的完整組成，其中包括128臺（4x32）服務器，每臺服務器配備8個H100 GPU，總共有1024個H100 GPU。GPU與800G光模組的比例為1：1.5，相當於1024個GPU需要1536個光模組。GPU與400G光模組的比例為1：1，1024個GPU與1024個光模組的數量相等。

第四種情況：H100+ConnectX8（暫未發布）+QM9700三層網絡

在假設的情景中，如果H100GPU的網卡升級到800G，那麼外部接口就需要從四個擴展到八個OSFP接口。因此，層間連接也將使用800G光模組。基本網絡設計與初始方案保持一致，唯一的變化是將200G光模組替換為800G光模組。在此網絡架構內，GPU數量與所需光模組保持1：65的比例，與初始場景相同。

基於上述情況整理，假如2023年H100 GPU的出貨量為300000個，A100 GPU的出貨量為900000個，將產生315萬個200G光模組、300000個400G光模組和787500個800G光模組的總需求。展望2024年，預計交付150萬臺H100 GPU和150萬臺A100 GPU，產生需求將包括75萬臺200G光模組、75萬臺400G光模組和675萬臺800G光模組。

對於A100 GPU，其連接均勻分配在200G交換機和400G交換機之間。

對於H100 GPU，其連接均勻分配在200G交換機和400G交換機之間。