RDMA加速集群性能提升

更新於 2024年01月03日 by

 1.3k

隨着企業數字化進程的加速推進，各類創新應用如雨後春筍般不斷湧現並付諸實踐。數據作為現代企業的核心資產，對高性能計算、大數據深度分析以及多元存儲解決方案的需求日益旺盛。然而，在滿足這些新興應用場景時，傳統的TCP/UDP等數據傳輸協議在性能與效率方面遭遇了顯著挑戰，出現了諸多難以逾越的技術瓶頸。

為應對這一問題，RDMA（Remote Direct Memory Access）技術應運而生，並逐漸成為提升集群性能的關鍵手段。RDMA通過繞過操作系統內核，實現網絡間的直接內存訪問，大幅度減少了數據處理中的CPU開銷和延遲，從而有效解決了傳統協議在高吞吐量、低延遲場景下的不足。藉助RDMA技術，數據中心可以更好地優化集群間的數據交互效率，進而促進高性能計算任務、大規模數據分析及HPC應用效能的顯著提升。

RoCE技術優勢及其生態系統發展

RoCE技術以其顯著優勢及生態系統的發展，對集群性能提升起到了關鍵作用。RDMA（遠程直接內存訪問）作為一種前沿的高性能網絡通信技術，是InfiniBand標準的核心支撐。其原理基於DMA（直接內存訪問），即允許設備在無需CPU介入的情況下直接訪問主機內存資源。而RDMA更進一步，通過在網絡接口層面實現跨越網絡的直接內存數據交互，並繞過操作系統內核處理環節，從而提供高效、低延遲且高吞吐量的數據傳輸服務，尤其適用於大規模並行計算集群環境。

為優化傳輸效率並充分利用網卡功能，RDMA技術使得應用程序能夠更好地掌控和利用網絡鏈路資源。最初專為InfiniBand網絡設計實施的RDMA技術，隨着需求增長逐漸擴展至傳統的以太網領域。在此基礎上誕生了兩種基於以太網的RDMA實現方式：iWARP和RoCE，其中RoCE又細分出RoCEv1和RoCEv2兩個版本。相較於成本相對較高的InfiniBand方案，RoCE與iWARP技術提供了更具性價比的硬件解決方案。

當RDMA技術運行於以太網環境中時，我們稱之為RoCE（RDMA over Converged Ethernet）。當前，在高性能網絡領域廣泛應用的是基於RoCE v2協議（RDMA over Converged Ethernet）的主流網絡解決方案。該協議成功將以太網與RDMA技術相結合，在多種以太網部署場景中實現了廣泛的應用和深入推廣，有力推動了集群性能的整體躍升。

socket-vs-rdma

與傳統的TCP/IP通信機制相比較，RDMA技術通過運用內核繞行（Kernel Bypass）和零拷貝（Zero Copy）技術實現了關鍵性能優化。這種優化顯著降低了網絡傳輸延遲，並有效減少了CPU使用率，進而緩解了內存帶寬瓶頸問題，充分提升了系統對帶寬資源的利用效率。

具體來說，RDMA技術開創了一種基於I/O直接訪問的新型通道模式。在此模式下，應用程序能夠直接藉助RDMA設備的能力，跨越操作系統內核的限制，實現對遠程虛擬內存空間的直接讀寫操作。這一特性極大地消除了數據在不同層級緩衝區之間複製的開銷，以及上下文切換帶來的延遲，從而確保集群中的計算節點能夠以更高的速度、更低的延遲進行高效的數據交互，有力地提升了整個集群系統的性能表現。

tcp-ip-vs-rdma-roce

RDMA技術在應用程序與網絡架構之間構建了一條專門的數據傳輸通路，巧妙地繞過了操作系統內核層的處理環節。通過精心優化這條直連數據路徑，可以將用於數據轉發的CPU資源佔用率降低至近乎零的狀態，充分利用ASIC芯片提供的強大計算性能。RDMA憑藉其獨特的機制，能夠在不干擾操作系統的前提下，高效地將數據直接從網絡傳輸至計算機存儲區域，並實現不同系統內存間的高速數據遷移。

這一策略有效地消除了傳統外部內存複製和上下文切換過程中產生的額外開銷，從而釋放了寶貴的內存帶寬資源和CPU周期，極大地提升了應用系統的運行效率及整個集群的綜合效能。目前，RDMA技術已在全球範圍內的超級計算中心及互聯網企業中得到廣泛應用，並成功建立了一個成熟的應用程序與網絡設備協同工作的生態系統。在當前項目中，將RDMA技術整合進企業級大規模數據中心體系結構，標誌着該技術生態邁入了一個嶄新的發展階段。

GPU Direct-RDMA技術提升HPC應用效率

在HPC應用性能優化的進程中，GPU Direct-RDMA技術扮演着至關重要的角色。傳統的TCP網絡架構在數據包管理上高度依賴CPU處理，這導致其難以充分利用現有的帶寬資源，尤其是在對帶寬和延遲要求極高的環境以及大規模集群訓練場景中。

RDMA技術不僅革新了CPU內存中用戶空間數據在網絡中的高效傳輸，更進一步地實現了跨越多服務器邊界、在GPU集群內部不同GPU之間的直接數據交互。這一特性正是GPU Direct技術的核心價值所在，它作為提升HPC系統性能的關鍵一環，為高性能計算領域帶來了革命性的變化。

隨着深度學習模型複雜度的持續攀升及計算數據規模的指數級增長，單臺機器的計算能力已無法滿足日益嚴苛的需求。因此，涉及多臺機器和多個GPU並行協同工作的分布式訓練方式變得不可或缺。在此情境下，各機器間通信效率成為了衡量分布式訓練性能的關鍵指標。GPUDirect RDMA技術恰逢其時，通過提供跨機器間GPU直接通信的能力，極大地提升了通信速度，從而有力推動了整個集群系統的性能表現。

➢ GPU Direct RDMA: 是一項利用網絡適配器的RoCE功能的技術，其主要優勢在於能夠在GPU集群內的服務器節點之間實現高速內存數據交換。在網絡設計與實施方面，NVIDIA通過支持GPU Direct RDMA功能顯著提升了GPU集群的性能。

在GPU集群網絡領域，對於網絡延遲和帶寬的高要求顯得尤為重要。傳統的網絡傳輸方式有時會限制GPU的並行處理能力，導致資源利用率低下。特別是在GPU多節點通信過程中，傳統的高帶寬數據傳輸路徑通常需要涉及CPU內存，這為內存讀寫操作和CPU負載引入了瓶頸問題。

gpu-direct-rdma

為了解決這些問題，GPU Direct RDMA技術採用了一種直接的方法，即讓網絡適配器設備暴露給GPU，從而促進GPU內存空間間的直接遠程訪問。這一創新方法顯著提高了帶寬和延遲性能，極大地提高了GPU集群運行效率。通過將網絡適配器與GPU直接關聯，GPU Direct RDMA消除了傳統傳輸路徑中涉及CPU的瓶頸，使得GPU之間的數據傳輸更為高效和快速。

數據中心交換機無損網絡解決方案

roce-solution

數據中心交換機採用的無損網絡解決方案，針對在交換機上支持RoCE（遠程直接內存訪問）流量的場景，通常被稱為無損以太網方案。這一全方位解決方案集中了實現高效網絡運營的關鍵技術手段：

➢ ECN（Explicit Congestion Notification）顯式擁塞通知技術：ECN在IP層與傳輸層引入了流量控制和端到端擁塞檢測機制。該技術藉助於IP數據包頭部中的DS字段來實時反映網絡傳輸路徑上的擁塞狀況。具備ECN功能的終端設備能夠依據數據包內容動態評估網絡擁塞狀態，並據此調整傳輸策略以緩解擁塞壓力。而增強型Fast ECN技術則通過在數據包出隊列時即時標記ECN字段，顯著減少了轉發過程中ECN標記產生的延遲時間。如此一來，接收服務器能夠快速識別並響應帶有ECN標記的數據包，從而加快發送速率的動態調整過程。

➢ PFC（Priority-based Flow Control）基於優先級的流控制技術：PFC提供了逐跳優先級級別的流控能力。當設備進行數據包轉發時，會根據數據包的優先級實施調度與傳輸，並將數據包映射到相應的隊列中。若某一優先級的數據包發送速率超過了接收端的處理能力，導致接收端可用數據緩衝空間不足，此時設備將會向其前一跳節點發送PFC PAUSE幀。收到PAUSE幀後，前一跳節點會暫停對應優先級數據包的傳輸，直至接收到PFC XON幀或等待一定老化時間後再恢複數據流量。通過這種方式，PFC確保了一種類型流量出現擁塞時不會影響其他類型流量的正常轉發，確保了同一條鏈路上不同類型數據包之間互不干擾的順暢運行。

優化RDMA和RoCE產品選擇

針對RDMA和RoCE產品優化選擇，NVIDIA基於其在無損以太網實踐中的豐富經驗，將ECN視作關鍵的擁塞控制手段。藉助硬件加速的Fast ECN支持，系統能夠實現快速響應並確保高效的流量管控。同時，通過整合ETS（Enhanced Transmission Selection）機制以及創新的物理緩存優化技術，資源調度得到了針對多元流量模型的精細化調整。

然而，儘管PFC（Priority-based Flow Control）技術引入帶來了一定優勢，但也不可忽視其潛在的網絡死鎖風險。經過對比分析，我們發現PFC流控機制在提高網絡穩定性、解決由擁塞引發的數據包丟失問題方面效果有限，並暴露出其固有的安全隱患與性能瓶頸。

RDMA在實現卓越端到端網絡通信中扮演着核心角色，專註於大幅提升遠程數據傳輸速率。這一過程涵蓋了主機側內核繞過技術、網絡卡上的傳輸層卸載處理，以及在網絡側實施擁塞流控制等複雜環節的深度融合。這些措施共同帶來了顯著的低延遲、高吞吐量特性，以及極小的CPU佔用率等優勢。

不過，當前RDMA的實際應用仍面臨可擴展性受限、配置修改過程複雜性等問題的挑戰。因此，在不斷演進的RDMA與RoCE產品領域中，精準把握技術發展趨勢，充分應對各種局限性，是確保無縫集成及保持高性能網絡解決方案長期穩定運行的關鍵所在。

在構建能夠顯著提升集群性能的RDMA網絡架構時，除了不可或缺的高性能RDMA適配器和強大計算能力的服務器之外，高速光模組、高性能交換機以及高質量光纖電纜等核心組件同樣扮演着決定性角色。在這方面，飛速（FS）公司提供的可靠高速數據傳輸產品及解決方案因其卓越表現而備受推崇。

作為業界領先的高速數據傳輸解決方案供應商，飛速（FS）精心打造了一系列定製化頂級硬件設備，諸如專為低延遲與高速傳輸場景設計的高性能交換機、 200/400/800G光模組，以及集成智能技術的網卡等。這些產品精準契合了大規模科學計算、實時數據分析、金融交易等領域對於極低延遲與極致穩定性的嚴苛要求。

飛速（FS）的產品與解決方案已廣泛應用於多個行業，並成功滿足了各類應用中對超低延遲環境的極高標準。在搭建高性能網絡系統的過程中，飛速（FS）憑藉其獨特優勢，在成本效益與運行效能之間實現了理想的平衡，從而成為眾多用戶部署此類網絡時首選的合作夥伴。