

馬克哈里斯 編劇
發佈於 2025 年 4 月 28 日
我經歷過 SDN 的早期,
十多家由創投支持的新創公司憑藉自己的網路作業系統進入市場。共同點是:每家新創公司創建的作業系統都會加載在基於商用矽片的行業標準開放交換器上。毫不奇怪,Edgecore 是運行每個作業系統所需的開放硬體平台的主要選擇之一,因為它長期以來一直提供開放解決方案。
這是開放的狂野西部,這種分解方法的早期採用者用他們的金錢證明了硬體和軟體的分解是有趣的。他們投入了真金白銀來創建與現有的傳統專有解決方案「不同」且「更好」的生產級資料中心交換平台。作業系統之戰從 2010 年持續到 2016 年左右,然後神奇的事情發生了...

SONIC(雲端開放網路軟體)進入市場。
SONiC 是由微軟開發的,用於支援 Azure,而當時 SDN 參與者正在爭奪主導地位。微軟正在尋找一種方法來支援他們的 Azure 雲端服務,並做出了基於主力 Linux 平台開發自己的作業系統的策略選擇。微軟的 SONiC 運作良好,因此在 2017 年他們將其提供給開源社群。正如他們所說,故事的其餘部分已成為歷史!雖然其他網路作業系統仍存在於專門應用領域,例如 TELCO,但 SONiC 正迅速成為資料中心和 AI 推理開放基礎設施建設領域的主導者。
SONiC 專案目前由 Linux 基金會管理,擁有超過 5000 名活躍社群成員,代表 500 多家公司。它專為高效能和 AI 資料中心部署而設計,提供靈活、可擴展且低 TCO 的網路解決方案,特別適合具有苛刻且不斷發展的需求的最新一代以 GPU 為中心的基礎設施。
那麼為什麼 SONiC 對 AI 資料中心部署如此重要?

SONIC 在 AI 資料中心的價值:
1.高效能網路結構: 人工智慧工作負載,尤其是跨多個 GPU 的分散式訓練,需要高頻寬、低延遲和無損的網路結構。 SONiC 支援融合乙太網路 (RoCE) 上的遠端直接記憶體存取 (RDMA) 等功能,這對於高效的 GPU 到 GPU 通訊和記憶體存取、最大限度地減少瓶頸和最大限度地提高訓練速度至關重要。
2.可擴展性: 人工智慧資料中心通常需要快速擴展以適應不斷增長的資料集和更複雜的模型。 SONiC 的模組化架構和對各種硬體平台的支援允許無縫擴展網路基礎設施,而不會被鎖定在單一供應商的生態系統中。
3.靈活性和客製化: SONiC 的開源特性允許網路營運商定製作業系統以滿足其 AI 基礎設施的特定要求。它們可以整合專門針對 AI 工作負載客製化的協定、自動化工具和監控系統。
4.供應商中立性: SONiC 將網路作業系統與底層硬體分開。這種分解使得人工智慧資料中心能夠從不同的供應商中選擇最佳的硬件,避免供應商鎖定並可能減少資本支出。組織可以根據效能、成本和與 AI 加速相關的特定功能(如特定的 ASIC 功能)來選擇硬體。
5.自動化和編排: 管理人工智慧資料中心的大型網路基礎設施需要強大的自動化。 SONiC 支援開放和標準化 API(如 REST API),並與各種自動化和編排工具良好集成,從而實現高效的網路配置、配置、監控和管理。這對於處理 AI 工作負載和基礎架構的動態特性至關重要。
6.網路可視性和診斷: 即時監控和診斷對於維持人工智慧網路的效能和穩定性至關重要。 SONiC 為不同硬體供應商之間的遙測和診斷提供了統一的接口,簡化了故障排除和效能最佳化。
7. 與人工智慧基礎設施的整合: SONiC 可以與 AI 基礎架構的其他元件(例如 SmartNIC)整合(使用 DASH(SONiC 主機的分解 API)等計劃),以進一步提高效能並從 CPU 卸載網路處理任務,從而將其釋放用於 AI 運算。
SONIC 對 AI 資料中心的好處:

• 降低整體擁有成本 (TCO): 透過擺脫專有系統並利用當今功能強大的商用矽片,人工智慧資料中心可以顯著降低硬體的前期資本成本 (CAPEX) 以及與許可和供應商鎖定相關的持續營運成本 (OPEX)。事實上,分析公司 Dell'Oro 發布的趨勢數據顯示,乙太網路將在未來 24 個月內超越 InfiniBand 在 AI 資料中心的使用,IDC 也表示 SONiC 是開放交換器中成長最快的開放網路作業系統。乙太網路和 SONiC 可以以比當今極其有限的 Infiniband 產品市場更低的 TCO 提供所需的連接。
• 增強創新性和敏捷性: 開源社群推動SONiC內部的快速創新。人工智慧資料中心可以從更快採用新的網路技術中受益,並有助於開發人工智慧工作負載所需的特定功能。模組化架構允許更快地部署新服務和功能,而無需中斷整個網路。
• 增強控制力和靈活性: 組織可以更好地控制其網路基礎設施,從而能夠根據人工智慧應用的需求精確地客製化和優化它。它們不受單一供應商的功能和路線圖的限制。
• 提高可靠性和正常運作時間: SONiC 中的容器化組件等功能允許線上升級和故障隔離,從而最大限度地減少停機時間,這對於不間斷的 AI 訓練和推理任務至關重要。支援主動-主動 Top-of-Rack(ToR)配置增強了網路彈性。
• 強大的社區支持: 龐大且活躍的 SONiC 社區,包括人工智慧和網路領域的主要參與者(如微軟、NVIDIA、博通等),提供廣泛的支援、文件和豐富的專業知識,使得在複雜的人工智慧環境中部署和管理 SONiC 變得更加容易。

最終結果:
AI 資料中心趨向於乙太網路交換,乙太網路交換趨向使用包含開放矽片的開放交換機,而開放交換機趨向於使用 SONiC 來提供價值。為什麼? SONIC 提供了現代、適應性強且經濟高效的網路基礎,非常適合處理 AI 推理的獨特和苛刻的要求(高效能和低延遲、RDMA、擁塞控制等)。基於 SONiC 的開放式基礎設施可以大幅提高高成本資源(如 GPU)的使用率,並減少訓練和推理作業的時間。用於 AI 的 SONiC 可實現更強大的控制力、最大的靈活性以及令人羨慕的 AI 推理工作負載效能。
您可能也喜歡
🔹訪問 Edgecore 以了解有關 SONiC 的更多資訊 👉 https://www.edge-core.com/sonic/
🔹 與我們保持聯絡 👉 https://www.edge-core.com/subscribe-newsletter/
如果您對我們的產品和服務有任何意見、詢問或疑問,請填寫以下表格。
最近的部落格
2025年4月28日
2025年1月31日
2025 年 1 月 7 日