
對更智慧 AI 模型(特別是大型語言模型 LLM 及深度學習演算法)的持續追求,帶動了對運算能力前所未有的需求。處於這場革命核心的是圖形處理單元(GPU),它們透過平行運算的能力,非常適合進行 AI 訓練中密集且反覆的計算。然而,要真正發揮數千個互相連接的 GPU 在資料中心環境中的潛力,並不是只要將它們連接起來就行了,而是需要一個能夠處理大量資料傳輸、延遲極低,並能避免任何封包遺失的高效能網路基礎架構。 在這方面,資料中心橋接(DCB)與先進的流量控制機制, 如優先級式流量控制(PFC) 及 與顯性壅塞通知(ECN),便顯得格外重要。
大規模 GPU 叢集中的網路擁塞現象
試想一個 AI 訓練作業分布在數百甚至數千個 GPU 上,這些 GPU 會不斷交換大量資料(例如模型參數、梯度與激活值),通常以高度同步的突發形式進行。 這種「all-to-one」或「many-to-one」的通訊模式(又稱為 incast),很容易導致傳統乙太網路壅塞, 產生所謂的吞吐崩潰(throughput collapse)。沒有適當的控制機制時,網路緩衝區會溢出並造成封包遺失。在 AI 應用中,封包遺失不僅僅是不便,還會嚴重影響訓練效率、延長訓練時間,甚至導致模型無法收斂。封包重傳所產生的延遲會抵消 GPU 原本的高速處理效能。
網路連線、壅塞和 GPU 利用率
因此,網路的效能成為提升 GPU 使用率(不論是訓練或推論)的關鍵:
- LLM 推論(模型並行與批次處理): 對於超級大型語言模型而言,往往需要模型並行(將模型的不同層分布於不同 GPU 或伺服器上),每次推論請求都涉及資料在 GPU 間的串流。如果這些 GPU 間的網路路徑發生壅塞,即使只是短暫,也會讓整個推論流程停滯。又例如在批次處理中,只要其中一部分資料因壅塞而延遲或遺失封包,就會拖慢整個批次的處理進度,進而影響下一批次。這直接導致使用者體驗變差(延遲增加)與整體推論效能下降(QPS 減少)。DCB 所提供的無損傳輸能力,確保關鍵的 GPU 間資料傳輸不中斷,維持高效推論流程並最大化 GPU 投資報酬率。
- LLM 微調(分散式訓練): 在分散式微調作業中,數百個 GPU 會頻繁地交換大量梯度更新與模型參數(例如透過 All-Reduce 操作)。當網路出現壅塞時,這些集合通訊會被嚴重拖慢,造成 GPU 空等,無法開始下一次運算。即使 GPU 顯示 100% 使用率,實際上可能只是卡在等待網路 I/O,導致效能浪費並增加雲端與電力費用支出。PFC 能確保 All-Reduce 封包不會被丟棄,防止災難性延遲;而 ECN 則可主動管理傳輸速率,降低等待時間。
資料中心橋接(DCB):打造 AI 無遺失網路
DCB 是一套 IEEE 標準(802.1Qxx),目的是強化乙太網路在資料中心的應用,特別是支援各類型流量(儲存、管理、HPC)的融合網路。對 AI 而言,DCB 最關鍵的能力在於提供 低延遲且無封包遺失的乙太網路架構。確保關鍵 AI 流量不會遺失資料包。實現這一點的 DCB 的兩個關鍵元件是PFC與ECN).
優先級式流量控制(PFC):在鏈路層防止封包遺失
PFC(IEEE 802.1Qbb)是延伸傳統 Ethernet PAUSE 框架的技術。不同於會暫停整條鏈路的標準 PAUSE frame, PFC 能根據優先等級(CoS)選擇性地暫停某一類流量。.
以下是 PFC 在 GPU 密集環境中的運作方式:
- 流量分類: AI 訓練流量(常使用 RDMA over Converged Ethernet, RoCEv2)被指定為高優先等級。
- 擁塞檢測: 當交換器某個 CoS 緩衝區接近飽和,表示即將壅塞。
- 傳送暫停訊號: 交換器向上游設備(如另一台交換器或 GPU 的 NIC)傳送針對該優先等級的 PFC 暫停訊號。
- 選擇性停止: 上游設備只暫停該 CoS 流量,其餘流量正常傳輸。
- 緩衝區釋放後恢復: 緩衝區回復後,交換器會發送恢復訊號,允許該流量恢復傳輸。
PFC 對 GPU 的好處:
- 零封包遺失: 透過在緩衝區溢出之前暫停流量,PFC 保證關鍵 AI 資料的無損傳輸,這對於分散式 GPU 運算的完整性和效率至關重要。
- 流量隔離: 它可以防止高優先級 AI 流量的突發行為影響同一鏈路上其他對時間不太敏感的流量類型,從而維持整體網路穩定性。
- 可預測的性能: 透過消除資料包遺失,PFC 有助於實現 GPU 通訊更可預測和一致的效能,減少抖動並縮短作業完成時間。
但若未妥善設計,PFC 也可能導致「PFC 風暴」,形成網路全面停滯或死結, 因此需輔以 ECN 技術。.
顯性壅塞通知(ECN):主動避免壅塞
ECN(RFC 3168)是一種允許網路設備向端點發出早期壅塞訊號的機制 前 發生封包遺失時,支援 ECN 的裝置不會丟棄封包,而是在 IP 標頭中標記封包以指示擁塞。它提供了可靠的 GPU 到 GPU 流量所需的主動佇列管理等級。
ECN流量管理流程通常如下:
- ECN 協商能力: 在連接建立期間(例如,TCP三向交握),發送方和接收方協商其 ECN 功能。
- 壅塞標記: 當網路設備的佇列利用率達到 ECN 閾值(低於觸發 PFC 的閾值)時,設備會將傳入的支援 ECN 的資料包標記為「遇到擁塞」(CE)。
- 接收者通知: 標記的資料包到達具有 ECN 功能的接收方。
- 寄件者回饋: 接收到標記封包的接收端會將壅塞訊息回傳發送端(例如 TCP 標頭設定 ECE bit,或 RoCEv2 發送 CNP)。
- 降低速率: 發送方收到擁塞回饋後,主動降低發送速率,從而在緩衝區溢出和丟包之前緩解擁塞。
PFC 和 ECN 協同作用,適用於大型 GPU 部署:
在由數百或數千個昂貴的 GPU 組成的大規模 AI 集群中,PFC 和 ECN 協同工作,提供強大而高效的無損網絡,從而提高 GPU 本身的交付價值:
- ECN 作為第一道防線: ECN 是一種主動機制,能夠提供擁塞預警。透過允許發送方預先降低速率,它可以最大限度地降低達到 PFC 閾值的可能性,並避免採取更激進的暫停流量措施。這種「軟」速率自適應對於維持連續的資料流至關重要。
- PFC 作為最後手段: 如果 ECN 的主動措施不足以防止擁塞,或者突然發生大量流量,PFC 將作為一種被動的硬停止機制介入,以防止最關鍵的 AI 流量發生任何資料包遺失。
- 優化 RoCEv2 效能: RoCEv2 被廣泛用於 GPU 互連,它高度依賴這些機制。 ECN 訊號會觸發網卡 (NIC) 內的擁塞控制演算法(例如資料中心量化擁塞通知 - DCQCN),從而動態調整傳輸速率。 PFC 確保即使在極端負載下,RoCEv2 封包也不會遺失,從而維護 RDMA 操作的完整性。
- 平衡延遲和吞吐量: ECN 控制小流(mice flows)延遲,PFC 確保大流(elephant flows)穩定高吞吐。
真實企業範例:具有不同 QoS 和 SLA 要求的多租戶 AI 工作負載
在大型企業中,AI 集群往往不只支援單一任務。以多租戶環境為例,GPU 資源同時服務多個 AI 工作負載:
- 研發(R&D)團隊: 針對新產品功能執行實驗性的 LLM 微調作業。這些作業通常規模龐大、運行時間長,可以容忍稍高的初始延遲,但需要保證頻寬才能在特定時間窗口內完成(例如,夜間,並根據 SLA 要求在隔天早晨前完成)。對於這些作業而言,穩定的吞吐量以避免訓練延遲至關重要,即使這意味著會暫時降低其他低優先流量的速度。
- 製造品質控制(QC)部門: 需要在裝配線上進行即時缺陷檢測,要求極低的延遲(<10ms)和接近零的資料包遺失(例如,99.999% 成功推理的 SLA),以防止生產線停工。
- 財務風險分析團隊: 執行批量推理作業,用於詐欺偵測或市場預測。這些任務至關重要,但互動性較差,需要高吞吐量才能在特定的合規時間段內(例如,一天結束前)處理大型資料集。
DCB 結合 PFC 和 ECN,讓網路管理員對這些不同的流量類型進行分類和優先排序。對於延遲敏感的推理查詢,RoCEv2 流量可以分配最高優先級的 CoS,並設定嚴格的 ECN 閾值,以確保主動降低速率;而訓練流量則獲得高優先級的 CoS,以實現無損傳輸;其他後台流量則使用標準類別。這種先進的流量管理機制可確保高優先順序的推理查詢不會因大規模訓練作業而處於資源匱乏的狀態,從而確保在共享 GPU 基礎架構上滿足每個租戶的 SLA 要求。
結論
隨著 AI 模型日益龐大與複雜,底層的網路架構變得越來越關鍵。資料中心橋接(DCB)中的優先級流量控制(PFC)與顯式壅塞通知(ECN)不再只是最佳化選項,而是構建可擴展、高效能、可靠 AI 解決方案的核心基礎。選擇具備 DCB 支援的網路解決方案,可確保無遺失的通訊、主動壅塞管理,以及細緻的流量控制,幫助企業最大化其 GPU 投資報酬率,並在人工智慧時代中加速創新腳步。
如果您對我們的產品和服務有任何意見、詢問或疑問,請填寫以下表格。
最近的部落格
2025 年 8 月 21 日
2025 年 7 月 30 日
2025 年 7 月 11 日