
作者:马克·哈里斯
发布于 2025 年 7 月 30 日
对更智能的人工智能模型(尤其是大型语言模型 (LLM) 和深度学习算法)的不懈追求,推动了对计算能力前所未有的需求。这场革命的核心是图形处理单元 (GPU),它凭借其并行处理能力,非常适合定义人工智能训练的密集型迭代计算。然而,在数据中心环境中充分释放数千个互连 GPU 的潜力并非仅仅是简单地将它们接入网络那么简单。它需要一个能够以最小延迟和至关重要的零丢包率处理海量数据流的复杂网络基础设施。这正是 数据中心桥接 (DCB),再加上先进的流量控制机制,如 基于优先级的流量控制(PFC) 和 显式拥塞通知 (ECN),变得绝对必要。
大规模 GPU 集群中的网络拥塞概述
想象一下,一项 AI 训练任务分布在数百甚至数千个 GPU 上。这些 GPU 会持续交换海量数据——参数、梯度、激活值——通常以高度同步的突发方式进行。这种“多对一”或“多对一”的通信模式,被称为 被铸成,可以迅速压垮传统以太网网络,通常称为 吞吐量崩溃如果没有适当的机制,网络缓冲区就会溢出,导致数据包丢失。在人工智能领域,数据包丢失不仅仅是带来不便,还会严重降低训练效率,增加训练时间,甚至导致模型收敛问题。数据包丢失导致的重传会造成显著的延迟,从而抵消 GPU 的高速处理能力。
网络连接、拥塞和 GPU 利用率
因此,网络的成功成为高效利用这些资本密集型 GPU 的关键,无论是用于训练还是推理:
- LLM 推理(模型并行和批处理): 对于需要模型并行性的大型 LLM(其中模型的不同层或部分位于不同的 GPU,可能位于不同的服务器上),每个推理请求都涉及在 GPU 之间进行顺序数据传输,因为提示会流经模型的各个层。如果这些 GPU 之间的网络路径出现短暂拥堵,整个推理流水线就会停滞。同样,当使用批处理来最大化 GPU 利用率时,即使由于批处理中某个部分拥堵而导致的少量数据包丢失或延迟,也可能会延迟整个批处理的完成,从而对后续批处理造成连锁反应。这直接导致最终用户的推理延迟增加,并显著降低整个系统的推理吞吐量(每秒查询次数)。DCB 的无损功能可确保这些关键的 GPU 间传输永不中断,从而保持流畅、高吞吐量的推理流水线,并最大化您的 GPU 投资回报率。
- LLM 微调(分布式训练): 在跨数百个 GPU 的分布式微调作业中,该过程涉及频繁且大量的梯度更新和模型参数交换(例如,All-Reduce 操作)。如果网络出现拥塞,这些集体通信操作的速度会显著降低。作为并行处理器,GPU 会处于空闲状态,等待其他 GPU 的数据完成当前迭代后才能开始下一次迭代。计算利用率显示为 100% 的 GPU 可能会因网络 I/O 而停滞,这意味着实际完成的工作量会大大减少,从而浪费数小时甚至数天的计算时间,并增加云/电力成本。PFC 确保这些关键的 All-Reduce 数据包永远不会丢失,从而防止灾难性的网络速度下降,而 ECN 则会主动管理流量,以最大限度地减少这些空闲等待。
数据中心桥接:创建无损人工智能网络
数据中心桥接 (DCB) 是一组 IEEE 标准 (802.1Qxx),旨在增强数据中心环境中的以太网,特别是支持各种流量类型(存储、管理和高性能计算)共存的融合网络。DCB 在人工智能领域的关键作用在于它能够创建 低延迟和无损以太网结构确保关键 AI 流量不会丢失数据包。实现这一点的 DCB 的两个关键组件是基于优先级的流量控制(功率因数校正) 和显式拥塞通知 (ECN).
基于优先级的流量控制 (PFC):防止链路级别的数据包丢失
PFC (IEEE 802.1Qbb) 是一种链路级流量控制机制,它扩展了传统的以太网 PAUSE 帧。与暂停链路上所有流量的标准 PAUSE 帧不同,PFC 允许 根据服务类别 (CoS) 优先级选择性暂停流量.
以下是 PFC 在 GPU 密集环境中的工作原理的简化解释:
- 流量分类: AI 训练流量通常利用融合以太网远程直接内存访问 (RDMA) (RoCEv2),并被分配特定的高优先级 CoS。这确保其被网络视为关键数据。
- 拥塞检测: 当交换机的特定 CoS 队列(例如专用于 RoCEv2 流量的队列)的出口缓冲区达到预定义的阈值时,表示即将发生拥塞。
- PFC 暂停帧: 拥塞的交换机会向上游传输设备(另一台交换机或 GPU 的网络接口卡 - NIC)发送一个 PFC 暂停帧。此暂停帧与拥塞的 CoS 优先级相关。
- 选择性停止: 收到 PFC 暂停帧后,上游设备会暂时停止传输仅针对该特定 CoS 优先级的流量。同一链路上的其他流量类别不受影响。
- 缓冲区恢复和恢复: 当拥塞缓冲区耗尽并且其占用率低于恢复阈值时,交换机会发送 PFC 恢复帧,向上游设备发出信号以重新启动该优先级的传输。
PFC 对 GPU 的好处:
- 零数据包丢失: 通过在缓冲区溢出之前暂停流量,PFC 可保证关键 AI 数据的无损传输,这对于分布式 GPU 计算的完整性和效率至关重要。
- 交通隔离: 它可以防止高优先级 AI 流量的突发影响同一链路上其他对时间不太敏感的流量类型,从而维持整体网络稳定性。
- 可预测的性能: 通过消除数据包丢失,PFC 有助于实现 GPU 通信更可预测和一致的性能,减少抖动并缩短作业完成时间。
然而,PFC 也存在局限性。如果设计和配置不当,可能会出现“PFC 风暴”,导致暂停帧广泛传播,最终可能导致整个网络速度变慢或死锁,尤其是在多跳环境中。 这就是为什么要添加另一项技术 ECN 来补充 PFC.
显式拥塞通知(ECN):主动拥塞避免
ECN(RFC 3168)是一种允许网络设备向端点发出早期拥塞信号的机制 前 发生数据包丢失时,支持 ECN 的设备不会丢弃数据包,而是在 IP 报头中标记数据包以指示拥塞。它提供了可靠的 GPU 到 GPU 流量所需的主动队列管理级别。
ECN流量管理流程通常如下:
- ECN 协商能力: 在连接建立期间(例如,TCP 握手),发送方和接收方协商其 ECN 功能。
- 拥堵标记: 当网络设备的队列利用率达到 ECN 阈值(低于触发 PFC 的阈值)时,设备会将传入的支持 ECN 的数据包标记为“遇到拥塞”(CE)。
- 接收者通知: 标记的数据包到达具有 ECN 功能的接收方。
- 发件人反馈: 然后,接收方将此拥塞通知回显给发送方(例如,通过在 TCP 标头中设置 ECN-Echo (ECE) 位或在 RoCEv2 中发送拥塞通知数据包 (CNP))。
- 降低利率: 发送方收到拥塞反馈后,主动降低发送速率,从而在缓冲区溢出和丢包之前缓解拥塞。
PFC 和 ECN 协同作用,适用于大型 GPU 部署:
在由数百或数千个昂贵的 GPU 组成的大规模 AI 集群中,PFC 和 ECN 协同工作,提供强大而高效的无损网络,从而提高 GPU 本身的交付价值:
- ECN 作为第一道防线: ECN 是一种主动机制,能够提供拥塞预警。通过允许发送方预先降低速率,它可以最大限度地降低达到 PFC 阈值的可能性,并避免采取更为激进的暂停流量措施。这种“软”速率自适应对于维持连续的数据流至关重要。
- PFC 作为最后手段: 如果 ECN 的主动措施不足以防止拥塞,或者突然发生大量流量,PFC 将作为一种被动的硬停止机制介入,以防止最关键的 AI 流量发生任何数据包丢失。
- 优化 RoCEv2 性能: RoCEv2 被广泛用于 GPU 互连,它高度依赖于这些机制。ECN 信号会触发网卡 (NIC) 内的拥塞控制算法(例如数据中心量化拥塞通知 - DCQCN),从而动态调整传输速率。PFC 确保即使在极端负载下,RoCEv2 数据包也不会丢失,从而维护 RDMA 操作的完整性。
- 平衡延迟和吞吐量: 通过将 ECN 的主动速率限制与 PFC 的无损保证相结合,网络架构师可以对网络进行微调,以平衡对延迟敏感的“小鼠流”(小型交互式消息)的低延迟和大型“大象流”(训练期间的批量数据传输)的高吞吐量。
真实企业示例:具有不同 QoS 和 SLA 要求的多租户 AI 工作负载
在大型企业中,AI 集群很少专用于单一任务。设想一个多租户环境,其中同一个 GPU 集群支持多个不同的 AI 工作负载:
- 研发(R&D)团队: 针对新产品功能运行实验性的 LLM 微调作业。这些作业通常规模庞大、运行时间长,可以容忍稍高的初始延迟,但需要保证带宽才能在特定时间窗口内完成(例如,夜间,并根据 SLA 要求在次日早晨前完成)。对于这些作业而言,稳定的吞吐量以避免训练延迟至关重要,即使这意味着会暂时降低其他低优先级流量的速度。
- 制造质量控制(QC)部门: 需要在装配线上进行实时缺陷检测,要求极低的延迟(<10ms)和接近零的数据包丢失(例如,99.999% 成功推理的 SLA),以防止生产线停工。
- 财务风险分析团队: 运行批量推理作业,用于欺诈检测或市场预测。这些任务至关重要,但交互性较差,需要高吞吐量才能在特定的合规时间段内(例如,一天结束前)处理大型数据集。
DCB 结合 PFC 和 ECN,允许网络管理员对这些不同的流量类型进行分类和优先级排序。对于延迟敏感的推理查询,RoCEv2 流量可以分配最高优先级的 CoS,并设置严格的 ECN 阈值,以确保主动降低速率;而训练流量则获得高优先级的 CoS,以实现无损传输;其他后台流量则使用标准类别。这种先进的流量管理机制可确保高优先级的推理查询不会因大规模训练作业而处于资源匮乏的状态,从而确保在共享 GPU 基础架构上满足每个租户的 SLA 要求。
结论
随着人工智能模型的复杂性和规模不断增长,底层的横向扩展网络基础设施已成为整体系统性能中日益关键的组成部分。数据中心桥接技术以其基于优先级的流量控制 (PFC) 和显式拥塞通知 (ECN) 等核心功能为基石,它不仅仅是一项优化或锦上添花的功能;它更是构建高效、可靠且可扩展的人工智能计算解决方案的关键基础,尤其是在 GPU 方面投入巨大的情况下。通过选择能够确保无损通信、主动管理拥塞并提供精细流量控制的网络连接解决方案,基于这些数据中心桥接技术的可扩展解决方案将赋能企业及其人工智能战略,使其能够利用行业标准技术突破极限,加速人工智能时代的创新步伐。
如果您对我们的产品和服务有任何意见、询问或问题,请填写以下表格。
最近的博客
2025 年 7 月 30 日
2025 年 7 月 11 日
2025年4月28日