人工智能/机器学习 |人工智能服务器
| AGS8200
AGS8200
Edgecore AGS8200 是一款基于 GPU 的尖端高性能服务器,专为满足 AI/ML 应用的需求而定制。该服务器旨在擅长训练大型语言模型、自动化流程以及增强对象分类和识别等任务,提供无与伦比的性能和可扩展性。
AGS8200 的核心是强大的 Intel® Habana® Gaudi® 2 处理器(总共 8 个)以及双 Xeon® Sapphire-Rapids 处理器。这些组件联合起来创建了一个计算引擎,准备以卓越的速度和精度处理各种深度学习工作负载。
为什么选择AGS8200?
英特尔® Gaudi® 2 的力量
英特尔® Gaudi® 2 主要优势
■ MLPerf 图像的参考/来源
特点
Edgecore AGS8200 非常适合现代 AI(人工智能)和 ML(机器学习)应用。 AGS8200 采用英特尔® Gaudi® 2 人工智能加速器,适用于 LLM(大型语言模型)训练和推理,让客户能够高效利用人工智能的力量。
该系统采用八个 Intel® Habana® Gaudi® 2 处理器和双 Xeon® Sapphire-Rapids 处理器设计。 Gaudi® 2处理器集成96GB HBM2E内存和24个100GbE RoCEv2 RDMA网卡。 24 个 100G NIC 提供全面的连接以及内部和外部的横向扩展,用于训练、微调和其他深度学习处理。
每个 Gaudi® 2 处理器都具有 21 x 100GbE 无阻塞、与服务器内其他 Gaudi® 2 处理器的点对点连接,允许在所有八个 Intel® Gaudi® 2 处理器上进行训练,而无需外部以太网交换机。
每个 AGS8200 支持 6 个 QSFP-DD 端口以进行横向扩展。 400G 端口可通过基于 Intel® Gaudi® 2 的节点的机架和集群中的分支电缆连接到 400G 交换机或 100G 交换机。
该服务器能够包含 16 个 HDD/SSD + 8 个 NVMe 或 8 个 HDD/SSD + 16 个 NVMe 用于存储,支持 RAID HBA 0/1/10/5/6/50/60。
■ 配备八个 Habana® Gaudi® 2 AI 训练处理器
■ 双第四代 Intel® Xeon® 可扩展处理器
■ 通过将 24 个 100GE RoCE 端口集成到每个 Gaudi® 2 中来扩展网络容量
■ 服务器内部扩展速度为 700 GB/秒,横向扩展速度为 2.4 TB/秒
■ 使用 Habana® SynapseAI® 软件堆栈轻松构建或迁移系统
■ 标准化架构和以太网取代专有的 Infiniband 和 NVLINK
规格
Form Factor
■ 8U
Compute Node
■ CPU: Sapphire Rapids, 2 Sockets
Intel® Xeon® Platinum 8454H, 32c, 64 threads, 82.5MB, 270 W
■ PCH: Emmitsburg
■ Memory: Upto 2TB 16x DDR5 memory slots per CPU
■ Operating System: Ubuntu 20.04
■ BIOS: 32MB Flash
GPU
■ 8 x OAM (Intel Habana HL-225H/C)
Input/Output
■ Front: 2 x USB 2.0/3.0, 1 x VGA, 1 x UID, 1 x PWR
■ Rear: 2 x USB 2.0/3.0, 1 x VGA, 1 x RJ-45, 1 x UID
Scale-Out Interface
■ RDMA (ROCE v2)
■ 24 x 100Gbps
■ 6 个 QSFP-DD
Storage
■ Internal: 2 x M.2
■ Front: 16 x HDD/SSD+ 8 x NVMe or 8 x HDD/SSD+ 16 x NVMe
BMC
■ AST2600
TPM 2.0
CD-ROM
■ Support external USB CD-ROM
PSU
■ System: 1+1 CRPS 2700 W redundant/hot-swappable AC/DC
■ GPU: 3+3 CRPS 3000 W redundant/hot-swappable AC/DC
Fans
■ 14+1 hot-swappable fans
Dimensions
■ 900 mm x 447 mm x 352mm
Operating Temperature
■ 5℃-35℃
Expansion Slots
■ 1 x OCP 3.0
■ 8 x PCle Slots
Soſtware
■ SynapseAl: 1.13.0
■ Kernel: 5.4.0 and above
Python:3.10
PyTorch:2.1.0
TensorFlow:2.13.1
■ Open MPI: 4.1.5
■ Libfabric: 1.16.1 and above
■ Transformers: >= 4.33.0, <4.35.0
相关解决方案
相关资源