Mark Harris

作者:马克·哈里斯

发布于 2025 年 4 月 28 日

我经历过 SDN 的早期,

十几家甚至更多由风险投资支持的初创公司,凭借各自独特的网络操作系统脱颖而出。它们的共同点在于:每家初创公司开发的操作系统都会搭载在基于商用芯片的行业标准开放交换机上。Edgecore 不出所料地成为了运行这些操作系统所需的开放硬件平台的主要选择之一,因为它长期以来一直致力于提供开放解决方案。

当时的开放世界一片荒芜,这种分解式方案的早期采用者用他们的资金证明了硬件和软件分解的乐趣所在。他们投入了真金白银,打造出比现有传统专有解决方案“与众不同”且“更胜一筹”的生产级数据中心交换平台。操作系统之争从2010年持续到2016年左右,然后奇迹发生了……

SONIC(云端开放网络软件)进入市场。

SONiC 是由微软开发的,用于支持 Azure,而当时 SDN 厂商正争夺主导地位。微软正在寻找一种方式来支持其 Azure 云服务,并做出了基于主流 Linux 平台开发自有操作系统的战略选择。微软的 SONiC 运行良好,因此在 2017 年将其提供给开源社区。正如人们所说,剩下的故事已成为历史!虽然其他网络操作系统仍然存在于电信等专用应用领域,但 SONiC 正迅速成为数据中心和 AI 推理开放基础设施建设的主导者。

SONiC 项目目前由 Linux 基金会管理,拥有超过 5000 名活跃社区成员,代表 500 多家公司。该项目专为高性能和 AI 数据中心部署而设计,提供灵活、可扩展且低 TCO 的网络解决方案,尤其适合需求日益增长、以 GPU 为中心的最新一代基础架构。

那么为什么 SONiC 对于 AI 数据中心部署如此重要?

SONIC 在 AI 数据中心的价值:

1.高性能网络结构: AI 工作负载,尤其是跨多个 GPU 的分布式训练,需要高带宽、低延迟且无损的网络结构。SONiC 支持融合以太网 (RoCE) 上的远程直接内存访问 (RDMA) 等功能,这对于高效的 GPU 间通信和内存访问至关重要,可最大限度地减少瓶颈并最大限度地提高训练速度。

2.可扩展性: 人工智能数据中心通常需要快速扩展,以适应不断增长的数据集和更复杂的模型。SONiC 的模块化架构及其对各种硬件平台的支持,使其网络基础设施能够无缝扩展,而无需局限于单一供应商的生态系统。

3.灵活性和定制性: SONiC 的开源特性允许网络运营商定制操作系统,以满足其 AI 基础设施的特定需求。他们可以集成专门针对 AI 工作负载定制的协议、自动化工具和监控系统。

4.供应商中立性: SONiC 将网络操作系统与底层硬件分离。这种分离使 AI 数据中心能够从不同供应商中选择最佳硬件,从而避免供应商锁定,并潜在地降低资本支出。企业可以根据性能、成本以及与 AI 加速相关的特定功能(例如特定的 ASIC 功能)来选择硬件。

5.自动化和编排: 管理 AI 数据中心的大规模网络基础设施需要强大的自动化能力。SONiC 支持开放和标准化的 API(例如 REST API),并能与各种自动化和编排工具良好集成,从而实现高效的网络配置、配置、监控和管理。这对于应对 AI 工作负载和基础设施的动态变化至关重要。

6.网络可视性和诊断: 实时监控和诊断对于维护人工智能网络的性能和稳定性至关重要。SONiC 为不同硬件供应商的遥测和诊断提供了统一的接口,简化了故障排除和性能优化。

7. 与人工智能基础设施的集成: SONiC 可以与 AI 基础设施的其他组件(例如 SmartNIC)集成(使用 DASH(SONiC 主机的分解 API)等计划),以进一步提高性能并从 CPU 卸载网络处理任务,从而将其释放用于 AI 计算。

SONIC 对 AI 数据中心的好处:

• 降低总体拥有成本 (TCO): 通过摆脱专有系统,并利用当今功能强大的商用芯片,AI 数据中心可以显著降低硬件的前期资本成本 (CAPEX) 以及与许可和供应商锁定相关的持续运营成本 (OPEX)。事实上,分析公司 Dell'Oro 发布的趋势数据显示,以太网将在未来 24 个月内取代 InfiniBand 在 AI 数据中心的使用率,而 IDC 也指出 SONiC 是开放交换机中增长最快的开放网络操作系统。以太网和 SONiC 能够以比目前极其有限的 Infiniband 产品市场更低的总体拥有成本 (TCO) 提供所需的连接。

• 增强创新性和敏捷性: 开源社区推动着 SONiC 的快速创新。AI 数据中心可以受益于新网络技术的快速采用,并助力 AI 工作负载所需的特定功能的开发。模块化架构允许在不中断整个网络的情况下更快地部署新服务和功能。

• 增强控制力和灵活性: 企业可以更好地控制其网络基础设施,从而能够根据 AI 应用的需求进行精准定制和优化,不再受限于单一供应商的功能和路线图。

• 提高可靠性和正常运行时间: SONiC 中的容器化组件等特性支持在线升级和故障隔离,从而最大限度地减少停机时间,这对于不间断的 AI 训练和推理任务至关重要。支持双活 Top-of-Rack (ToR) 配置,增强了网络弹性。

• 强大的社区支持: 庞大而活跃的 SONiC 社区,包括人工智能和网络领域的主要参与者(如微软、NVIDIA、博通等),提供广泛的支持、文档和丰富的专业知识,使得在复杂的人工智能环境中部署和管理 SONiC 变得更加容易。

最终结果:

AI 数据中心正朝着以太网交换的方向发展,以太网交换正朝着使用包含开放芯片的开放交换机的方向发展,而开放交换机则正朝着使用 SONiC 来提供价值的方向发展。原因何在?SONIC 提供现代化、适应性强且经济高效的网络基础,非常适合处理 AI 推理的独特且严苛的要求(高性能、低延迟、RDMA、拥塞控制等)。基于 SONiC 的开放基础架构可以显著提高高成本资源(如 GPU)的利用率,并减少训练和推理作业的时间。面向 AI 的 SONiC 可实现更强大的控制力、最大的灵活性以及令人羡慕的 AI 推理工作负载性能。

您可能还喜欢

🔹访问 Edgecore 了解有关 SONiC 的更多信息 👉 https://www.edge-core.com/sonic/

🔹 与我们保持联系 👉 https://www.edge-core.com/subscribe-newsletter/

🔹联系我们👉 https://www.edge-core.com/Contact-inquiry/

如果您对我们的产品和服务有任何意见、询问或问题,请填写以下表格。

通过提交此表单,您同意我们可以使用您提供的数据与您联系,提供与您的请求/提交以及智邦解决方案和服务相关的信息。有关我们如何处理和使用您的个人信息的更多信息,请参阅我们的 隐私权政策.