NVLink vs InfiniBand: 比較分析と今後の動向

2024年04月22日 George より投稿

 51

今日のハイパフォーマンス・コンピューティング（HPC）では、効率的なデータ転送を実現するために、コンピュートノードをつなぐネットワーク・インターコネクト技術が不可欠です。相互接続技術の中でも、NVIDIAのNVLinkとInfiniBandは際立っています。それぞれの技術は、特定のユースケースに対して多様な利点を提供します。この記事では、これら2つの技術の詳細な比較を掘り下げ、今後の発展の可能性について議論します。

NVLink技術に関する洞察

NVLinkは、サーバー内のGPU間の通信制限に対処するプロトコルです。帯域幅に制限がある従来のPCIeスイッチとは異なり、NVLinkはサーバー内のGPU間の高速な直接相互接続を可能にします。

NVLink帯域幅の計算

NVLinkの計算方法の複雑さを理解することは、NVLinkの能力を理解し、さまざまなアプリケーションでの使用法を最適化するために不可欠です。ここでは、NVLink 3.0を例にとって、NVLinkの計算方法について掘り下げていきます。

このバージョンは、「sub-link」を形成するために組み合わされる4つの差動ペアで構成されます（NVIDIAは通常、これらをポート/リンクと呼びますが、用語には少し曖昧さがあります）。これら4組の差動信号線は、データを同時に送受信する役割を果たします。ネットワーク帯域幅を評価する場合、400Gbpsインターフェースは、400Gbpsで同時にデータを送受信する能力を示します。これは下図に示されています。

Memory Controller

NVLink 3.0は4対の差動信号線で構成され、それぞれがRX（受信）とTX（送信）コンポーネントを備えています。ネットワークの観点からは、これは一方向の400Gbpsリンクに相当します。しかし、メモリ帯域幅に関しては、100GB/秒という驚異的な容量をサポートしています。NVLinkの詳細については、NVIDIA NVLinkの概要の記事をご覧ください。

InfiniBand技術の概要

InfiniBand（IB）は、CPUとI/Oデバイス間のデータフローを可能にする通信ネットワークで、最大64,000個のアドレス可能なデバイスを持つ。各ノードが専用チャネルを介して他のノードと直接通信するポイント・ツー・ポイント接続を使用するため、ネットワークの混雑を最小限に抑え、全体的なパフォーマンスを向上させることができます。このアーキテクチャはRDMA（Remote Direct Memory Access）技術をサポートしており、ホストCPUを介さずにメモリ間でデータを直接転送できるため、転送効率が向上します。

サブネットは、InfiniBandアーキテクチャにおける最小の完全な単位であり、ルーターが多数のサブネットを接続して広大なInfiniBandネットワークを構築します。各サブネットは、エンドノード、スイッチ、コネクション、サブネットマネージャーで構成されます。InfiniBandネットワークは、データセンター、クラウド・コンピューティング、ハイパフォーマンス・コンピューティング（HPC）などに応用されています。

NVLinkとInfiniBandの比較

NVLinkとInfiniBandは設計が大きく異なります。

帯域幅: NVLinkは特定の構成でより高速なデータ転送速度を提供できますが、InfiniBandはその優れたスケーラビリティと成熟したエコシステムにより、大規模クラスタでその地位を占めています。
レイテンシー: どちらもこのような影響を最小限に抑えるように最適化されているが、InfiniBandはオープンスタンダードで幅広いサポートがあるため、多様な環境に適応しやすいです。
コスト: NVLinkは、NVIDIA GPUと提携しているため、通常、より高い投資を伴います。一方、InfiniBandは、市場で定評のあるプレーヤーであるため、より多くの価格設定オプションと構成の柔軟性を提供します。
応用: AIや機械学習の分野では、NVLinkの応用が拡大しており、その最適化されたデータ交換機能により、モデルのトレーニングに大きな速度上の利点がもたらされます。InfiniBandは科学研究や学術研究にも広く応用されており、大規模クラスタのサポートと優れたネットワーク性能は、複雑なシミュレーションやデータ集約的なタスクの実行に不可欠です。

実際、大規模なデータセンターやスーパーコンピューティングシステムでは、NVLINKとInfiniBandの両方の技術を取り入れたハイブリッド相互接続アーキテクチャを選択することがよくあります。この戦略的アプローチは、それぞれの技術の長所を生かします。

NVLINKはGPUノードの相互接続に頻繁に採用され、計算集約的なタスクやディープラーニングタスクの性能を向上させます。一方、InfiniBandは、データセンター内の汎用サーバーノード、ストレージデバイス、その他の重要な機器の接続を担当します。この組み合わせにより、システム全体のシームレスな連携と効率的な運用が保証されます。

今後の動向

計算に対する要求の高まりに伴い、NVLink と InfiniBand の両方が、将来のデータセンターのより高い性能要件を満たすために、継続的に進化しています。NVLinkはNVIDIAエコシステム内での統合の深化に重点を置き、InfiniBandはオープン性と互換性の強化に重点を置くかもしれません。新たな技術により、シナリオによっては両者の融合もあり得ります。

FSが提供するInfiniBand関連製品

FSは、スイッチ、アダプタ、トランシーバー、ケーブルを含む幅広いInfiniBandソリューションを提供し、様々なネットワーク要件を満たします。これらのデバイスは、優れたパフォーマンス、信頼性、拡張性を提供し、最新のデータセンター環境の要求を満たすことを目的としています。

InfiniBandスイッチ

製品	MQM8790-HS2F	MQM8700-HS2F	MQM9700-NS2F	MQM9790-NS2F
リンク速度	200Gb/s	200Gb/s	800Gb/s	800Gb/s
ポート	40	40	32	32
ファン	5+1ホットスワップ対応	5+1ホットスワップ対応	6+1ホットスワップ対応	6+1ホットスワップ対応
電源	1+1ホットスワップ対応	1+1ホットスワップ対応	1+1ホットスワップ対応	1+1ホットスワップ対応

InfiniBandアダプタ

製品	MCX75310AAC-NEAT	MCX715105AS-WEAT	MCX653105A-HDAT-SP	MCX653106A-HDAT-SP	MCX653105A-ECAT-SP	MCX653106A-ECAT-SP	MCX75510AAS-NEAT
ポート	Single-Port OSFP	シングルポートQSFP112	シングルポートQSFP56	デュアルポートQSFP56	シングルポートQSFP56	デュアルポートQSFP56	シングルポートOSFP
PCIeインターフェース	PCIe 5.0x 16	PCIe 5.0x 16	PCIe 4.0x 16	PCIe 4.0x 16	PCIe 4.0x 16	PCIe 4.0x 16	PCIe 5.0x 16

結論

FSの特注ネットワーキングソリューションに関する専門知識により、企業は独自のワークロードや運用要件に合わせて相互接続設計を最適化することができます。高速InfiniBandファブリックの構築、ネットワークトポロジの改善、特注相互接続ソリューションの実装など、FSの品質へのこだわりは、企業がデータエコシステムの可能性を最大限に引き出すことを可能にします。