繁體中文

深度解讀RoCE v2網絡技術

更新於 2024年01月10日 by
4.6k

在日新月異的網絡技術領域中,遠程直接內存訪問(RDMA)技術已成為優化數據傳輸流程、提升整體網絡效能的關鍵驅動力。其中,以太網融合RDMA技術——RoCE(RDMA over Converged Ethernet),其第二代版本RoCE v2憑藉顯著的性能提升與更強的靈活性脫穎而出。本文將深度解讀RoCE v2的核心技術原理、配套網卡設備,並對比分析其與InfiniBand技術的差異。

什麼是RoCE v2技術?

RoCE v2是一種專為實現以太網環境下低延遲、高吞吐量數據傳輸而設計的RDMA協議。相較於涉及多重處理層次的傳統數據傳輸方式,RoCE v2實現了系統間的直接內存訪問機制,最大限度地減少了CPU的參與和降低通信延遲。這一特性賦予了RoCE v2在對數據交換速度及效率有着極高要求的應用場景中無可比擬的優勢,例如高性能計算(HPC)環境、數據中心以及雲計算架構。

RoCE v2是在前一代RoCE v1的基礎上演進而來的,通過引入一系列改進措施有效解決了原有局限性問題,並全面提升了性能表現。該協議充分利用了融合以太網基礎設施,使得傳統以太網流量與RDMA流量能夠在同一網絡結構中共存共榮。這種創新性的融合設計不僅簡化了網絡管理操作,還消除了搭建獨立RDMA架構的需求,從而極大地增強了RoCE v2的易用性和經濟效益。

RoCE v2 Network Infrastructure

RoCE網卡

在RoCE v2技術體系中,核心硬件設備之一是RoCE網絡接口卡(簡稱RoCE網卡),這種專門設計的網卡旨在高效支持RDMA操作。作為系統間直接內存訪問的關鍵實現載體,RoCE網卡集成了必要的硬件特性,能夠將CPU從繁重的RDMA任務中解脫出來,從而顯著降低數據傳輸延遲,並有力提升整個系統的運行性能。

RoCE Network Card

而構建高性能網絡交換機的核心基礎在於其採用的轉發芯片技術。值得一提的是,Tomahawk3系列芯片已廣泛應用於各類交換機產品之中,且隨着市場趨勢的發展,越來越多的交換機開始支持更新一代的Tomahawk4系列芯片。這種向更先進芯片技術的過渡進一步突顯了這些芯片在當前商業領域中的重要地位,它們被普遍用於高速、大容量的數據包轉發處理。

Tomahawk3 series chips

RoCE v2與InfiniBand技術對比

RoCE v2(基於以太網融合的RDMA第二版)和InfiniBand均為針對數據中心及高性能計算環境設計,旨在提供高速、低延遲通信解決方案的技術。以下從不同層面剖析兩者的關鍵差異。

RoCE v2 vs. Infiniband

物理層架構

  • RoCE v2:依託於現有的以太網基礎設施,允許在同一網絡中整合存儲數據流和常規數據流量,因此更易於融入既有的數據中心架構。

  • InfiniBand:採用獨立於以太網之外的專有通訊結構,通常需要專門構建的InfiniBand網絡,並可能涉及獨立的線纜布設和專用交換機設備。

協議棧與網絡協議兼容性

  • RoCE v2:通過以太網實現RDMA(遠程直接內存訪問)功能,其能夠與傳統的TCP/IP協議棧無縫集成,從而確保了對標準網絡協議的兼容性。

  • InfiniBand:配備了一套專為高速、低延遲傳輸優化定製的自有協議棧和網絡架構,使用時可能需要安裝特定的驅動程序和進行相應的配置調整。

交換機制

  • RoCE v2:能夠在支持數據中心橋接(DCB)特性的標準以太網交換機上運行,從而實現無損以太網的數據傳輸。

  • InfiniBand:則依賴於專為追求最低延遲和最高吞吐量而設計的InfiniBand交換機,以保證極致性能表現。

擁塞管理與控制

RoCE v2:

  • 擁塞管理:RoCE v2依賴於以太網交換機所支持的數據中心橋接(DCB)特性來有效應對網絡擁塞狀況。通過啟用DCB,RoCE v2能夠創建一個無損以太網環境,從而避免因擁塞導致的數據包丟失問題。

  • 擁塞控制:RoCE v2本身並不具備內置的專門解決方案,而是主要依靠底層以太網基礎設施所提供的功能來管理和緩解擁塞現象。

InfiniBand:

  • 擁塞管理:InfiniBand具備原生的擁塞控制能力。它運用信用流控等機制,確保即使在網絡流量高峰時期也能防止擁塞發生,保障通信過程中的數據完整性。

  • 擁塞控制:InfiniBand還整合了自適應路由和先進的擁塞控制算法,這些算法能夠根據實時網絡狀況動態調整數據傳輸路徑,從而有效地預防和減輕網絡內的擁塞問題。

路由機制與拓撲結構

RoCE v2:

  • 路由機制:RoCE v2通常採用傳統的以太網路由協議進行路由決策,如路由信息協議(RIP)或開放最短路徑優先(OSPF)。這意味着RoCE v2網絡中的數據傳輸路徑選擇是基於這些成熟的標準路由協議實現的。

  • 拓撲結構:RoCE v2普遍應用於標準以太網環境之中,其路由策略的制定和執行受到底層以太網基礎設施的制約和影響。這意味着在設計和實施RoCE v2網絡時,需要考慮現有的以太網架構,並根據該架構的特點來進行路由優化。

InfiniBand:

  • 路由機制:InfiniBand具備針對低延遲、高吞吐量通信特別優化的路由機制,它能夠支持多路徑設定以實現網絡冗餘及負載均衡,確保高效穩定的傳輸性能。

  • 拓撲結構:InfiniBand網絡支持豐富的配置方式,包括但不限於胖樹形(Fat Tree)、超立方體以及多路配置等多樣化布局。不同的拓撲結構選擇對路由決策有着直接影響,可根據實際應用場景和需求靈活構建高度可擴展且適應性強的高性能網絡。

在選擇RoCE v2與InfiniBand這兩種技術時,決策依據主要源於現有的基礎設施條件、特定應用需求以及實際環境的具體性能指標。RoCE v2的一大優勢在於能夠更加平滑地整合到已有的以太網網絡架構中,這對於希望在不改變現有網絡基礎的前提下提升數據通信效率的用戶尤為適用。

相反,對於那些追求極致性能表現和高度可擴展性的高性能計算場景,InfiniBand則因其專為低延遲、高吞吐量設計的特性及內置優化的路由與擁塞控制機制而可能成為更優的選擇。簡而言之,RoCE v2更適合於充分利用現有資源進行高效升級,而InfiniBand則更傾向於滿足對性能有嚴格要求且不吝嗇投入獨立專用網絡設施的高端應用場景。

UEC推出新型傳輸協議

在2023年7月19日,超高速以太網聯盟(UEC)正式宣告成立,集結了AMD、Arista、Broadcom、Cisco、Eviden、HPE、Intel、Meta和Microsoft等一眾行業領軍企業作為創始成員。這些公司在網絡基礎設施構建、HPC技術開發、雲計算解決方案以及高性能計算部署等領域積累了深厚且長達數十年的專業經驗。 該聯盟明確指出,儘管遠程直接內存訪問(RDMA)技術自數十年前確立以來,在數據傳輸領域取得了顯著成果,但隨着當前HPC與ML應用對網絡流量需求的急劇增長與複雜化,傳統的RDMA已無法充分滿足其嚴苛的標準。尤其當RDMA傾向於採用大塊數據傳輸模式時,可能導致鏈路負載不均衡,並加劇網絡負擔過重的問題。

鑒於此,UEC倡導並着手啟動一項旨在研發集成RDMA特性的現代傳輸協議計劃,以適應新興應用對高效率、低延遲和更優化資源分配的需求,從而推動網絡通信技術實現新的跨越。

總結

RoCE v2在RDMA技術領域扮演着舉足輕重的角色,為追求高性能與低延遲數據傳輸的組織提供了一種有力的解決方案。通過巧妙融合以太網基礎設施,並結合超高速以太網聯盟(UEC)所推動的新型傳輸協議的發展成果,RoCE v2成功適應了從高性能計算環境直至雲計算等各種複雜應用場景,展現出其靈活且經濟高效的特性。

儘管相較於InfiniBand比較中凸顯出RoCE v2的諸多優勢,但在選擇最為合適的RDMA技術方案時,各組織仍需充分考慮自身的特殊需求及現有的基礎架構條件。隨着技術持續演進,RoCE v2及其相關的技術創新將繼續在塑造未來高性能網絡格局中扮演決定性角色。

相關文章推薦

技術博文
See profile for 飛速(FS).
飛速(FS)
RDMA加速集群性能提升
2024年01月03日
1.2k
公司新聞
See profile for 飛速(FS).
飛速(FS)
200G數據中心:QSFP56和QSFP-DD光模組如何選擇?
2024年01月03日
1.1k
技術博文
See profile for George.
George
800G光傳輸網絡中的相干調製與PAM4技術
2024年01月08日
1.1k
技術博文
See profile for 飛速(FS).
飛速(FS)
面向高性能計算(HPC)的全無損以太網網絡
2024年01月03日
1.1k
公司新聞
See profile for 飛速(FS).
飛速(FS)
飛速(FS)400G產品全家福及其應用介紹
2024年01月08日
1.6k
技術博文
See profile for Jesse.
Jesse
光分路器光衰多少,如何計算和測量?
2022年01月25日
15.9k
技術博文
技術博文
See profile for Audrey.
Audrey
FTTH網絡應如何設計分層與分光比?
2022年01月25日
4.2k