AI / 機械学習 | AIサーバー
| AGS8200
AGS8200
Edgecore AGS8200 は、AI/ML アプリケーションの要求を満たすように調整された最先端の高性能 GPU ベースのサーバーです。このサーバーは、大規模な言語モデルのトレーニング、プロセスの自動化、オブジェクトの分類と認識の強化などのタスクに優れるよう設計されており、比類のないパフォーマンスとスケーラビリティを提供します。
AGS8200 の中心には、合計 8 個の強力な Intel® Habana® Gaudi® 2 プロセッサとデュアル Xeon® Sapphire-Rapids プロセッサが搭載されています。これらのコンポーネントが結合して強力なコンピューティング ハウスを構築し、さまざまなディープ ラーニング ワークロードに卓越した速度と精度で取り組むことができます。
AGS8200を選ぶ理由
インテル® Gaudi® 2 のパワー
インテル® Gaudi® 2 の主な利点
■ MLPerf イメージの参照/ソース
特徴
Edgecore AGS8200 は、最新の AI (人工知能) および ML (機械学習) アプリケーションに最適です。 Intel® Gaudi® 2 AI アクセラレータを搭載した AGS8200 は、LLM (Large Language Model) のトレーニングと推論に適しており、お客様は AI の力を効率的に活用できます。
このシステムは、8 つの Intel® Habana® Gaudi® 2 プロセッサとデュアル Xeon® Sapphire-Rapids プロセッサで設計されています。 Gaudi® 2 プロセッサには、96GB HBM2E メモリと 24 枚の 100GbE RoCEv2 RDMA NIC が統合されています。 24 個の 100G NIC は、全対全接続を提供し、トレーニング、微調整、その他の DL 処理のために内部および外部にスケールアウトします。
各 Gaudi® 2 プロセッサーには、サーバー内の他の Gaudi® 2 プロセッサーへの 21 x 100GbE ノンブロッキングの全対全接続があり、外部イーサネット スイッチを必要とせずに、8 つのインテル® Gaudi® 2 プロセッサーすべてにわたってトレーニングを行うことができます。
各 AGS8200 は、スケールアウト用に 6 つの QSFP-DD ポートをサポートします。 400G ポートは、Intel® Gaudi® 2 ベースのノードのラックおよびクラスター内のブレークアウト ケーブルを介して 400G スイッチまたは 100G スイッチに接続できます。
サーバーには、0/1/10/5/6/50/60 の RAID HBA をサポートするストレージとして、16 x HDD/SSD + 8 x NVMe または 8 x HDD/SSD + 16 x NVMe を含めることができます。
■ 8 つの Habana® Gaudi® 2 AI トレーニング プロセッサーを搭載
■ デュアル第 4 世代インテル® Xeon® スケーラブル プロセッサー
■ すべての Gaudi® 2 に統合された 24 x 100GE RoCE ポートによるネットワーク容量の拡張
■ サーバー内で 700 GB/秒のスケール、2.4 TB/秒のスケールアウト
■ Habana® SynapseAI® ソフトウェア スタックによるシステムの構築または移行の容易さ
■ 独自の Infiniband と NVLINK の代わりに標準化されたアーキテクチャとイーサネット
仕様
Form Factor
■8U
Compute Node
■ CPU: Sapphire Rapids, 2 Sockets
Intel® Xeon® Platinum 8454H, 32c, 64 threads, 82.5MB, 270 W
■ PCH: Emmitsburg
■ Memory: Upto 2TB 16x DDR5 memory slots per CPU
■ Operating System: Ubuntu 20.04
■ BIOS: 32MB Flash
GPU
■ 8 x OAM (Intel Habana HL-225H/C)
Input/Output
■ Front: 2 x USB 2.0/3.0, 1 x VGA, 1 x UID, 1 x PWR
■ Rear: 2 x USB 2.0/3.0, 1 x VGA, 1 x RJ-45, 1 x UID
Scale-Out Interface
■ RDMA (ROCE v2)
■ 24 x 100Gbps
■ QSFP-DD×6
Storage
■ Internal: 2 x M.2
■ Front: 16 x HDD/SSD+ 8 x NVMe or 8 x HDD/SSD+ 16 x NVMe
BMC
■AST2600
TPM2.0
CD-ROM
■ Support external USB CD-ROM
PSU
■ System: 1+1 CRPS 2700 W redundant/hot-swappable AC/DC
■ GPU: 3+3 CRPS 3000 W redundant/hot-swappable AC/DC
Fans
■ 14+1 hot-swappable fans
Dimensions
■ 900 mm x 447 mm x 352mm
Operating Temperature
■5℃〜35℃
Expansion Slots
■ 1 x OCP 3.0
■ 8 x PCle Slots
Soſtware
■ SynapseAl: 1.13.0
■ Kernel: 5.4.0 and above
■Python:3.10
■ PyTorch: 2.1.0
TensorFlow:2.13.1
■ Open MPI: 4.1.5
■ Libfabric: 1.16.1 and above
■ Transformers: >= 4.33.0, <4.35.0
関連ソリューション
関連リソース