NVIDIA DGX H100概述
NVIDIA DGX H100系統是一種專為HPC基礎架構和工作負載而設計的專用多功能解決方案,涵蓋了從分析和訓練到推理的各種應用場景。它包括NVIDIA Base Command™和NVIDIA企業軟件套件,以及來自NVIDIA DGXperts的專業建議。
DGX H100硬件和組件特性
硬件概述
NVIDIA DGX H100 640GB系統包括以下組件。
前面板連接和控制
左側是帶有面板的DGX H100系統,右側是不帶面板的DGX H100系統。
DGX H100後面板模塊。
-
尺寸:8U機架安裝,高度0.4m,最大寬度0.5m,最大深度0.9m。
-
重量:最大287.6lbs(130.45kg)。
-
輸入電壓:200-240V交流電。
-
電源規格:最大10.2KW,200-240V3300W,16A,50-60Hz。
-
支持高速網絡連接,包括InfiniBand和以太網,速度高達400Gbps。
外部端口連接和控制
下圖示展示了DGX H100系統中主板的連接和控制。
-
插槽1:雙端口ConnectX-7網卡
-
插槽2:雙端口ConnectX-7網卡
-
插槽3:100 Gb/s以太網網卡
-
插槽4:用於雙1.92TB NVMe啟動驅動器的M.2 PCle載板
-
2個USB端口(用於鍵盤或存儲設備)
-
串口輸入/輸出端口
-
VGA端口(用於顯示器)
-
1 GbE RJ-45用於遠程系統管理
-
10 GbE RJ-45用於遠程主機連接
主板托盤組件
CPU主板托盤是服務器的核心組件,包括標準服務器和專為HPC設計的服務器。它包含了CPU主板、系統內存、網卡、PCIE交換機和其他各種組件。下圖顯示DGX H100主板托盤組件。
-
系統內存:每個32個DIMM插槽提供2 TB的內存。
-
帶外系統管理(BMC):支持Redfish、IPMI、SNMP、KVM和Web用戶界面。字
-
帶內系統管理:3個雙端口100GbE和10GbE RJ45接口。機械和電源規格。
-
存儲: 操作系統存儲:2個1.92TB NVMe M.2固態硬盤(RAID 1陣列)。 數據緩存存儲:8個3.84TB NVMe U.2加密固態硬盤(RAID 0陣列)。
-
網絡: 集群網絡:4個OSFP端口,支持InfiniBand(高達400Gbps)和以太網(高達400GbE)。 存儲網絡:2個NVIDIA ConnectX-7雙端口以太網網卡,支持以太網(高達400GbE)和InfiniBand(高達400Gbps)。
GPU托盤組件
下圖顯示DGX H100系統中GPU托盤組件。
-
圖形處理器:8個NVIDIA H100 GPU,提供640 GB的GPU內存。
-
NVLink:4個第四代NVLink,提供900 GB/s的GPU到GPU帶寬。
GPU板托盤是服務器的關鍵組裝區域。其核心是GPU板托盤,包括GPU組件、模塊板和NVSwitch等重要部分。
DGX H100系統拓撲結構
以下是DGX H100系統的拓撲結構圖,展示了系統內各種硬件組件之間的連接、配置和相互關係。
DGX H100的功能優勢
該系統經過專業設計,優化吞吐量,為企業提供了一個高度精細、系統化組織且可擴展的平臺,以實現自然語言處理、推薦系統、數據分析等領域的突破。
DGX H100提供了靈活的部署選擇,無論是在本地進行直接管理,還是在NVIDIA DGX-Ready數據中心進行共享,通過NVIDIA DGX Foundry租用,或通過經過NVIDIA認證的託管服務提供商進行訪問。DGX-Ready生命周期管理計劃確保組織擁有可預測的財務模型,使其部署始終處於技術的前沿。這使得DGX H100與傳統的IT基礎設施一樣易於操作和訪問,減輕IT人員的額外負擔。
相關文章推薦
郵箱地址
-
Cat5e、Cat6、Cat6a和Cat7網線有什麼區別?哪個更好?
2020年08月21日
-
一文帶你了解SFP、SFP+、SFP28、QSFP+和QSFP28之間的區別
2024年04月13日
-
OM1、OM2、OM3、OM4和OM5多模光纖有什麼區別?
2021年11月24日
-
SFP端口是什麼?有什麼作用?可以接RJ45嗎?
2020年09月15日
-
PCIe卡知識掃盲:你想了解的都在這裡
2020年03月24日