RDMA技術賦能：構建高速網絡基礎設施，加速大型模型高效訓練

更新於 2024年01月08日 by

 2.5k

深入剖析RDMA在高速網絡環境中的應用價值與實現方式

遠程直接內存訪問（RDMA）作為超高速網絡內存訪問技術的領軍者，徹底顛覆了傳統程序對遠程計算節點內存資源的訪問模式。其卓越性能的核心在於巧妙地繞過了操作系統內核層（如套接字、TCP/IP協議棧）對數據傳輸的干預，實現了網絡通信範式的革新性躍遷。這一戰略性的架構優化有效地減輕了與內核操作相關的CPU開銷，使得數據可以直接從一個節點的網絡接口卡（NIC）內存讀寫至另一個節點，這種硬件設備在特定場景下也被稱為主機通道適配器（HCA）。

traditional-vs-rdma

在硬件實現方面，RDMA技術主要依託三種關鍵技術手段得以具體實施：InfiniBand、RoCE和iWARP。其中，InfiniBand與RoCE兩種技術因其出色的性能表現及廣泛應用，已被前沿技術專家廣泛認可為行業主流選擇。通過這兩種技術，特別是在訓練大型模型等對帶寬和延遲有嚴苛要求的應用場景中，能夠充分利用RDMA所賦予的高效低延遲特性構建高性能的高速網絡系統，從而顯著提高數據傳輸效率，並整體上優化系統的運行性能。

揭秘InfiniBand：卓越帶寬的巔峰之作

目前，InfiniBand生態系統已經覆蓋了100G和200G高速傳輸的主流技術。在這其中，增強數據速率（EDR，100G）和高數據速率（HDR，200G）成為該領域的一些專有名詞。值得關注的是，部分品牌已經能夠提供更高速率的解決方案，比如飛速（FS）已經推出了400GB光纖網卡產品，甚至、還有800G光模組可供選擇。InfiniBand技術正迅速演進。

儘管InfiniBand擁有出色的性能，但由於其昂貴的成本，它經常被很多IT專業人士忽視，導致其在一般應用中的普及率相對較低。然而，在各大高校和科研機構的超級計算機中心，InfiniBand幾乎成為不可或缺的標配，尤其是對於支持關鍵的超級計算任務而言。

與傳統交換機不同，InfiniBand網絡採用了獨特的“胖樹”網絡拓撲結構，以確保任意兩個計算節點之間的網絡卡能夠實現無縫通信。這種胖樹結構包括兩個層次：核心層負責流量轉發並與計算節點分離，而接入層則連接各類計算節點。

在實施InfiniBand網絡中的胖樹拓撲時，其高昂的成本主要源於具有36個端口的匯聚交換機。其中，一半的端口必須連接到計算節點，而另一半則需要與上層核心交換機相連以實現無損通信。值得注意的是，每根電纜的價格大約為1.3萬美元，並且為了保證無損通信，冗餘連接是必需的。

fat-tree-topology

正如俗話所說：“一分錢一分貨”，這正是InfiniBand的真實寫照。毫無爭議地，它提供了無與倫比的高帶寬和低延遲。根據維基百科的資料，相比以太網，InfiniBand的延遲顯著更低，分別為100納秒和230納秒。這卓越的性能使得InfiniBand成為全球頂尖超級計算機中不可或缺的核心技術之一，受到微軟、NVIDIA等行業巨頭以及美國國家實驗室的廣泛採用。

釋放RoCE潛力：經濟高效的RDMA解決方案探索

在計算機網絡技術領域中，RoCE（以太網融合上的RDMA）以其較高的性價比嶄露頭角，特別是在與成本高昂的InfiniBand等技術對比時。儘管RoCE並非低成本選項，但它為用戶提供了更為經濟的途徑，在以太網上實現RDMA功能。近年來，RoCE技術迅速發展，並逐漸成為一種有競爭力的InfiniBand替代方案，尤其在對成本控制要求嚴苛的應用場景中表現突出。

然而，儘管具備性價比優勢，要藉助RoCE實現真正的無損網絡仍面臨挑戰，整體網絡成本難以低於採用InfiniBand方案的50%。

解鎖大規模模型訓練潛能：GPUDirect RDMA的關鍵作用

在大規模模型訓練的過程中，節點間通信的成本至關重要。通過整合InfiniBand與GPU技術，GPUDirect RDMA這一顛覆性解決方案應運而生。該創新技術使得不同計算節點間的GPU能夠直接進行數據交互，無需經過內存和CPU層級。簡而言之，兩個節點上GPU之間的複雜通信過程可直接經由InfiniBand網絡接口卡完成，從而繞過了傳統路徑中必須通過CPU和內存的傳輸步驟。

在大規模模型訓練背景下，GPUDirect RDMA的重要性尤為顯著，因為模型通常存儲於GPU內存中。傳統的將模型複製至CPU並進一步傳輸至其他節點的過程耗時頗多，而使用GPUDirect RDMA則可以實現GPU間的直接信息交換，大幅度提升大規模模型訓練的效率和性能表現。

gpu-direct-rdma

優化大型模型網絡架構：戰略配置策略分析

在大型模型應用領域，要獲得最佳性能，關鍵在於精密配置，特別是當GPU與InfiniBand網卡協同工作時。這裡參考了合作夥伴NVIDIA推出的DGX系統，它倡導了一種GPU與InfiniBand網卡一對一配對的設計理念，並樹立了行業標杆。在此架構下，一個標準計算節點能夠集成9個InfiniBand網絡接口控制器（NIC），其中一個用於連接存儲系統，其餘8個則分別對應單個GPU卡。

雖然這種配置方式理論上最為理想，但其成本相對較高，因此有必要探尋更具性價比的替代方案。一種有效的折衷策略是採用1:4的InfiniBand網卡與GPU卡的比例。

實際部署中，GPU和InfiniBand網卡均通過PCI-E交換機進行互聯，一般情況下每個交換機可支持2塊GPU。理想的狀況是每塊GPU都能精準分配到專屬的InfiniBand網卡資源。然而，當兩塊GPU共享同一個InfiniBand網卡和PCI-E交換機時，會由於對共享資源的競爭而產生挑戰。

PCI-E switch-connection

InfiniBand網卡的數量直接影響着競爭程度及節點間通信效率，這一點可以通過附帶圖表生動展示。值得注意的是，在僅配備一塊100 Gbps網卡的情況下，帶寬可達12 GB/s，隨着網卡數量增加，帶寬幾乎呈現線性增長趨勢。設想一下，如果採用8塊H100 GPU卡搭配8塊400G InfiniBand NDR卡的配置方案，則能帶來極為震撼的數據傳輸速率。

nvidia-ib-bw

為每塊GPU配備一張獨立的網卡是最理想的配置情況：這樣可以最大限度地減少資源爭搶，提高節點間的通信效率和整體性能表現。

gpu-network-solution

構建卓越：大型模型網絡架構的軌式優化設計

在大規模模型運算的前沿領域，構建卓越性能的關鍵在於精心設計一套定製化的“軌式”網絡拓撲結構，該結構是對傳統高性能計算（HPC）中胖樹架構的一種革新與優化。

Lower-End Fat-Tree and Rails-Optimized Topology

此架構示意圖生動展示了基礎版胖樹拓撲與經過軌式優化後的對比。系統內核心組件包括兩臺MQM8700系列HDR（高數據速率）交換機，它們通過四條HDR電纜實現高速互聯，確保了極高的帶寬和低延遲通信。每個DGX GPU節點裝備了九塊InfiniBand（IB）網卡，這些網卡在圖中標註為主機通道適配器（HCAs），以滿足不同功能需求。

其中特別指派一塊IB卡作為存儲連接專用接口（Storage Target），其餘八塊則專為大規模模型訓練任務提供服務。具體布線策略如下：HCA1、HCA3、HCA5以及HCA7分別對接至第一個HDR交換機，而HCA2、HCA4、HCA6及HCA8則對應地與第二個交換機建立鏈接，以此形成了一種對稱且高效的多路徑傳輸體系，有力支撐了大規模並行計算環境下複雜模型的高效訓練和數據交換。

Full-Speed Rails-Optimized Topology

為了營造高效流暢的網絡環境，建議採用如圖所示的全無阻塞、深度優化的軌式網絡拓撲結構。在該設計中，每個DGX GPU節點均配備了八個InfiniBand (IB) 網卡，且每一個網卡都直接對接到一個獨立的交換機單元，這些被稱作葉交換機的設備總計部署了八臺。連接布局極其精細：例如，HCA1與第一臺葉交換機相連，HCA2與第二臺相接，以此遞增模式確保每張網卡都能專享一條高速鏈路。

後續的網絡架構圖清晰地揭示了底層細節，其中兩臺綠色標識的交換機代表脊交換機，它們負責實現四臺藍色標識的葉交換機之間的高速互聯。整個系統通過80條線纜將藍色和綠色交換機緊密耦合在一起，而藍色葉交換機則策略性地設置於下層，直接與計算節點建立物理連接。

這種配置的核心優勢在於其出色的可擴展性和低延遲特性，它能有效消除潛在的數據傳輸瓶頸，確保每一張IB卡都能夠以最優速率與網絡中的任何其他IB卡進行直接通信。這意味着任意GPU能夠以前所未有的效率實現無縫、實時的遠程內存訪問，從而極大地提升了大規模並行計算環境中GPU間的協同工作效率。

spine to leaf to server nodes diagram

實現卓越性能：飛速（FS）的InfiniBand與RoCE網絡技術解決方案

在追求高性能且零損失的複雜網絡環境中，選用InfiniBand或RoCE作為基礎架構的核心決策應緊密貼合您的特定應用需求和現有設施條件。兩者皆為業界翹楚，憑藉低延遲、高吞吐量以及對CPU資源的極低佔用率，在高性能計算（HPC）領域中展現出了卓越的適應性。

飛速（FS）致力於提供一系列全面而多樣的高速網絡產品線，不僅包括基於InfiniBand的專業級解決方案，也囊括了先進的以太網RoCE方案。我們的產品速率跨度廣泛，從40Gbps直至800Gbps不等，涵蓋多種規格的直連銅纜（DACs）及有源光纜（AOCs），確保滿足不同客戶對於帶寬和連接距離的多樣化訴求。

此外，我們整合了NVIDIA®品牌的交換機與網卡產品系列，進一步強化了整體網絡效能。這些高性能組件不僅是優化網絡架構的關鍵要素，更能在經濟成本控制下有力驅動客戶業務運行效率的大幅提升，成為加速數字化轉型和高性能運算任務成功實施的強勁引擎。