白皮書

人工智慧/機器學習白皮書
概述

近年來,資料中心對人工智慧和機器學習(AI/ML)能力的需求不斷增加。現在,大多數應用程式都利用深度機器學習並部署在分散式神經網路上。這種方法可確保資源保持暢通並並行運算,從而實現無縫擴展以滿足不斷增長的服務需求。在這樣的高速網路環境下,DCQCN(資料中心量化擁塞通知)作為RoCEv2網路中關鍵的擁塞控制演算法,有效結合ECN(明確擁塞通知)和PFC(優先流量控制),實現端對端無損以太網。

AI/ML 網路和雲端網路之間有一個主要區別: AI/ML領域還有更多大象流案例。換句話說,需要更高的速度來承受資料流峰值並解決不斷增長的分散式運算流量。針對這些挑戰,需要找到一種方法來在更高速的環境中調整無損和低延遲的網路。可以從兩個角度來應對這個挑戰:計算節點視圖和通訊網路視圖。

  • 下載
  • 下載 220
  • 文件大小 381 KB