白書

AI/ML ホワイトペーパー
概要

近年、データセンターにおける人工知能と機械学習 (AI/ML) 機能の需要が高まっています。現在、ほとんどのアプリケーションは、分散ニューラル ネットワークに展開されたディープラーニングを活用しています。このアプローチにより、リソースがブロックされずに並列計算されるため、サービス需要の増加に合わせてシームレスにスケーリングできます。このような高速ネットワーク環境では、DCQCN (データ センター量子化輻輳通知) が RoCEv2 ネットワークの極めて重要な輻輳制御アルゴリズムとして機能し、ECN (明示的輻輳通知) と PFC (優先フロー制御) を効果的に組み合わせて、エンドツーエンドのロスレス イーサネットを実現します。

AI/ML ネットワーキングとクラウド ネットワーキングには、1 つの大きな違いがあります。AI/ML には、エレファント フロー ケースが多いということです。言い換えれば、データ フローのピークを許容し、増加する分散コンピューティング トラフィックに対処するには、より高速な速度が必要です。これらの課題に関しては、より高速な環境でロスレスで低遅延のネットワークを調整する方法を見つける必要があります。この課題には、コンピューティング ノード ビューと通信ネットワーク ビューという 2 つの観点からアプローチできます。