人工智慧/機器學習 |人工智慧伺服器
| AGS8200
AGS8200
鈺登科技AGS8200是一款奠基於GPU的尖端、高性能的伺服器,特別設計來滿足AI/ML應用的需求。這款伺服器擅長訓練大型語言模型、自動化流程以及強化物件分類和識別等任務,提供無與倫比的效能和可擴展性。
AGS8200的核心是由八個強大的Intel® Habana® Gaudi® 2 GPU以及雙 Xeon® Sapphire-Rapids CPU組成。這些元件結合在一起形成一個強大的計算中心,能夠以出色的速度和精確度應對各種不同的深度學習工作。
為什麼選擇AGS8200?
英特爾® Gaudi® 2 的力量
英特爾® Gaudi® 2 主要優勢
■ MLPerf 影像的參考來源
特點
鈺登科技AGS8200非常適合現代 AI(人工智慧)和 ML(機器學習)應用。 AGS8200 採用英特爾® Gaudi® 2 人工智慧加速器,適用於 LLM(大型語言模式)訓練與推理,讓客戶能夠有效率地運用人工智慧的力量。
系統採用八個 Intel® Habana® Gaudi® 2 處理器和雙 Xeon® Sapphire-Rapids 處理器設計。 Gaudi® 2處理器整合96GB HBM2E記憶體和24個100GbE RoCEv2 RDMA網路卡。 24 個 100G NIC 提供全面的連接以及內部和外部的橫向擴展,用於訓練、微調和其他深度學習處理。
每個 Gaudi® 2 處理器都具有 21 x 100GbE 無阻塞、與伺服器內其他 Gaudi® 2 處理器的點對點連接,允許在所有八個 Intel Gaudi® 2 處理器上進行訓練,而無需外部乙太網路交換器。
每個 AGS8200 支援 6 個 QSFP-DD 連接埠以進行橫向擴展。 400G 連接埠可透過基於 Intel® Gaudi® 2 的節點的機架和叢集中的分支電纜連接到 400G 交換器或 100G 交換器。
該伺服器能夠包含 16 個 HDD/SSD + 8 個 NVMe 或 8 個 HDD/SSD + 16 個 NVMe 用於存儲,支援 RAID HBA 0/1/10/5/6/50/60。
■ 配備八個 Habana® Gaudi® 2 AI 訓練處理器
■ 雙第四代 Intel® Xeon® 可擴充處理器
■ 透過將 24 個 100GE RoCE 連接埠整合到每個 Gaudi® 2 中來擴展網路容量
■ 伺服器內部擴充速度為 700 GB/秒,橫向擴充速度為 2.4 TB/秒
■ 使用 Habana® SynapseAI® 軟體堆疊輕鬆建置或遷移系統
■標準化架構和乙太網路取代專有的 Infiniband 和 NVLINK
規格
Form Factor
■ 8U
Compute Node
■ CPU: Sapphire Rapids, 2 Sockets
Intel® Xeon® Platinum 8454H, 32c, 64 threads, 82.5MB, 270 W
■ PCH: Emmitsburg
■ Memory: Upto 2TB 16x DDR5 memory slots per CPU
■ Operating System: Ubuntu 20.04
■ BIOS: 32MB Flash
GPU
■ 8 x OAM (Intel Habana HL-225H/C)
Input/Output
■ Front: 2 x USB 2.0/3.0, 1 x VGA, 1 x UID, 1 x PWR
■ Rear: 2 x USB 2.0/3.0, 1 x VGA, 1 x RJ-45, 1 x UID
Scale-Out Interface
■ RDMA (ROCE v2)
■24×100Gbps
■ 6 x QSFP-DD
儲存裝置
■ Internal: 2 x M.2
■ Front: 16 x HDD/SSD+ 8 x NVMe or 8 x HDD/SSD+ 16 x NVMe
基板管理控制器
■ AST2600
TPM 2.0
CD-ROM
■ Support external USB CD-ROM
PSU
■ System: 1+1 CRPS 2700 W redundant/hot-swappable AC/DC
■ GPU: 3+3 CRPS 3000 W redundant/hot-swappable AC/DC
風扇
■ 14+1 hot-swappable fans
Dimensions
■ 900 mm x 447 mm x 352mm
工作溫度
■5℃-35℃
Expansion Slots
■ 1 x OCP 3.0
■ 8 x PCle Slots
Soſtware
■ SynapseAl: 1.13.0
■ Kernel: 5.4.0 and above
Python:3.10
PyTorch:2.1.0
TensorFlow:2.13.1
■ Open MPI: 4.1.5
■ Libfabric: 1.16.1 and above
■ Transformers: >= 4.33.0, <4.35.0
相關解決方案
相關資源