面向高性能計算（HPC）的全無損以太網網絡

更新於 2024年01月03日 by

 1.1k

當前，數據中心正經歷從單一資源存儲向計算能力核心樞紐的深刻轉型，內部承載的計算集群規模不斷擴大。隨着對高效互聯網絡需求的日益迫切，這實際上是對連接於各個計算節點間網絡性能不斷提升的直接響應。數據中心網絡的整合已悄然成為提升整體計算能力的關鍵組成部分，這一過程生動體現了計算與網絡深度融合的發展趨勢。

為了適應高性能計算環境嚴苛的要求，智能無損以太網技術應時而生，其目標是構築一個能夠滿足大規模、高密度計算集群間高速互連，並有效消除數據傳輸丟包問題的網絡架構體系。這種技術致力於在確保數據零丟失的前提下，大幅提升數據傳輸速度和效率，從而充分賦能高性能計算領域的發展與創新。

高性能計算工作對網絡基礎設施要求不斷提升

隨着5G、大數據、物聯網（IoT）等創新技術在社會各領域的深入應用，未來二三十年內智能化與數字化將成為社會發展的重要趨勢。數據中心計算能力已成為推動這一進程的關鍵動力，並且其關注焦點正逐漸從資源規模向計算能力規模轉移。業界普遍接受了以計算力為核心的數據中心模式，在此架構下，網絡基礎設施在實現數據中心內部高性能計算中扮演着至關重要的角色。優化網絡性能成為提升數據中心計算效能的關鍵因素。

為應對計算能力需求的持續增長，行業在多個維度上不斷尋求突破。儘管單核芯片技術在3nm節點遭遇瓶頸，通過多核堆疊的方式可以在一定程度上提升計算能力，但伴隨核心數量增加，每單位計算能力的能耗也顯著上升。與此同時，計算單元技術的發展已接近物理極限，摩爾定律預測的每18個月性能翻倍的趨勢即將走到盡頭。面對急劇攀升的計算需求，特別是在計算集群由P級邁向E級的大規模擴展過程中，高性能計算（HPC）的重要性愈發凸顯。

高性能計算致力於聚合大規模計算能力，解決超出常規工作站處理能力的複雜科學計算問題，如模擬仿真、模型構建和圖像渲染等。當計算需求從P級躍升至E級時，計算集群規模不斷擴大，對互聯網絡的性能要求也隨之升高，這進一步彰顯了計算與網絡深度融合的發展潮流。隨着計算需求從P級到E級的跨越式發展，計算集群規模的增長對互聯網絡性能提出了更高標準，使得計算與網絡之間形成了更為緊密的共生關係。

在高性能計算（HPC）的不同應用場景中，網絡性能需求呈現多元化特點：

松耦合計算場景：在金融風險評估、遙感等節點間相互依賴性較弱的領域，網絡性能需求相對平緩。這類任務對數據傳輸的即時性要求並不苛刻，但仍需穩定可靠的網絡支持以確保計算效率。
緊耦合計算場景：針對電磁模擬、流體動力學等高度依賴節點間同步協作和快速信息交換的任務，網絡延遲成為關鍵考量因素。此類應用需要極低的網絡延遲，並配備專門設計的低延遲網絡設施，以確保節點間的高效協同運算。
數據密集型計算場景：在天氣預報、基因測序等處理大量原始數據並生成巨量中間結果的應用情境下，高吞吐量網絡至關重要。不僅要求網絡具備高速傳輸能力，同時對整體網絡延遲也有明確且嚴格的標準。

綜上所述，在高性能計算環境中，為了應對各類複雜任務的需求，網絡系統必須兼具高吞吐量與低延遲的特性。為達成這一目標，業界普遍採用遠程直接內存訪問（RDMA）技術來取代傳統的TCP協議，以有效降低通信延遲，並最大限度地減少服務器CPU資源佔用。儘管RDMA技術優勢明顯，但其對網絡丟包現象的高度敏感也突顯了構建無損網絡環境的重要性。

高性能計算網絡的演進歷程

傳統數據中心網絡自始至終依賴於基於以太網技術構建的多跳對稱架構，並在數據傳輸過程中倚重TCP/IP協議棧。儘管歷經三十多年的發展與改進，但受限於其內在的技術局限性，傳統的TCP/IP網絡在滿足高性能計算（HPC）日益增長的需求時顯得捉襟見肘。隨着RDMA（遠程直接內存訪問）技術逐漸嶄露頭角並逐步取代TCP/IP成為高性能計算網絡的標準配置，一場意義深遠的變革正在上演。

此外，在RDMA技術的實際應用中，其採用的網絡層協議也經歷了從基於昂貴而高效的InfiniBand（IB）協議的無損網絡，向成本更為親民且同樣具備智能無損特性的以太網技術過渡。這一轉變標誌着高性能計算網絡技術在追求更高性能、更低延遲以及更優成本效益方面的持續探索與突破。FS的專業技術團隊將深入剖析這些技術變遷背後的驅動力及其帶來的顯著進步。

從TCP到RDMA

在傳統數據中心環境中，構建多跳對稱網絡架構的標準配置長期依賴於以太網技術和TCP/IP協議棧。然而，隨着高性能計算需求的不斷攀升，TCP/IP網絡由於以下兩個核心瓶頸而顯得力不從心：

延遲問題：TCP/IP協議棧處理數據包時，在內核層面涉及多次上下文切換，由此引入了數微秒級別的延遲。這種通常在5-10微秒範圍內的延遲對於要求微秒級響應的系統而言，成為了顯著制約因素，影響諸如數據處理和分布式固態存儲等任務的高效執行。
CPU利用率問題：除了延遲瓶頸外，TCP/IP網絡還存在CPU資源消耗過大的問題。主機CPU必須深度參與協議棧內部的數據複製過程，當網絡規模和帶寬持續增長時，這會導致CPU調度壓力增大，進而使得CPU負載長時間保持高位。業界普遍認為，每傳輸一個比特的數據就需要佔用大約1Hz的CPU頻率資源，因此在超過25Gbps（滿載）的高速網絡環境下，大量的CPU資源將被用於網絡通信而非實際計算工作。

為應對上述挑戰，服務器端引入了RDMA（遠程直接內存訪問）技術。RDMA是一種革命性的內存訪問機制，它允許數據繞過操作系統直接在計算機內存之間進行快速傳輸，從而避免了耗時的處理器中間環節操作。這一創新設計有效地解決了延遲、CPU利用率的問題，實現了高帶寬、低延遲及低資源佔用率，有力推動了高性能計算環境的發展與優化。

從InfiniBand到RoCE

如下圖所示，RDMA技術所採用的內核旁路機制使得應用程序可以直接與網絡適配器進行數據讀寫操作，從而成功規避了TCP/IP協議棧帶來的延遲限制。通過這一優化，協議棧延遲幾乎可以降低至1微秒以內。此外，RDMA的零拷貝特性使得接收端能夠直接訪問發送端內存中的數據，這不僅極大降低了CPU處理負擔，還顯著提升了整體CPU效率。

對比之下，在40Gbps速率下，傳統的TCP/IP通信可能會將所有可用的CPU資源消耗殆盡；而採用同樣速度下的RDMA方案時，CPU利用率則可以從100%大幅下降至5%，同時，網絡傳輸延遲也由原來的毫秒級別驟減至不足10微秒，實現了性能的飛躍提升。隨着以太網技術的發展，RDMA over Converged Ethernet（RoCE）應運而生，它將RDMA的優勢引入到了廣泛部署的以太網環境中，進一步推動高性能計算領域在網絡性能、效率和兼容性方面的持續進步。

hpc

目前，高性能計算領域中RDMA網絡層協議主要有三種選擇方案：InfiniBand、iWARP（互聯網廣域RDMA協議）以及RoCE（以太網融合上的RDMA）。

InfiniBand：作為一種專為RDMA設計的協議，在硬件層面確保了無損傳輸特性，從而提供了卓越的帶寬和低延遲性能。然而，由於其封閉的架構設計，可能會導致互操作性受限以及潛在的供應商鎖定問題。
iWARP：該協議允許在TCP/IP基礎之上實現RDMA功能，雖然需要使用特製的網絡適配器，但由於受到TCP協議本身特性的影響，相較於InfiniBand而言，在性能上存在一定的折損。
RoCE：該技術則將RDMA的優勢引入到了廣泛應用的以太網環境中，使得通過以太網進行遠程內存訪問成為可能。RoCE能夠在標準的以太網交換機上運行，僅需配備專用的RDMA網絡適配器即可。RoCE協議分為兩個版本，即RoCEv1和RoCEv2。其中，RoCEv2作為增強型網絡層協議，不僅支持路由功能，還允許不同廣播域中的主機相互訪問。

儘管RoCE具有諸多優勢，但因其對數據包丟失高度敏感，因此必須依賴於無損以太網技術來保證最佳性能。高性能計算網絡領域的這一發展進程，充分展示了業界對於不斷提升性能、效率和互操作性的持續探索與努力。

總結

隨着數據中心與高性能計算需求的日益增長，RDMA技術在實現高效、低延遲數據傳輸方面扮演着核心角色。對於用戶和供應商來說，在InfiniBand技術和支持RDMA的以太網技術之間做出選擇時，需要根據具體需求和實際應用場景進行審慎評估。超級計算領域中，InfiniBand技術憑藉其廣泛的應用基礎及成熟的生態系統佔據優勢；而在以太網環境內，RoCE與iWARP則更適合應用於高性能計算和存儲場景。

飛速（FS）作為一家專業服務於網絡、數據中心以及電信行業的通信和高速網絡系統解決方案提供商，充分利用NVIDIA® InfiniBand交換機、100G/200G/400G/800G光模組及NVIDIA® InfiniBand 光纖網卡等產品，為客戶提供包括基於InfiniBand和無損以太網（RoCE）在內的全面解決方案。這些方案能夠滿足各類應用需求，助力用戶顯著提升業務運行效率和整體性能表現。欲獲取更多詳盡信息，請訪問官方cn.fs.com網站。