白皮书

人工智能/机器学习白皮书
概述

近年来,数据中心对人工智能和机器学习 (AI/ML) 功能的需求不断增长。现在大多数应用程序都利用深度机器学习,部署在分布式神经网络上。这种方法可确保资源保持畅通并并行计算,从而实现无缝扩展以满足不断增长的服务需求。在这种高速网络环境中,DCQCN(数据中心量化拥塞通知)是 RoCEv2 网络中的关键拥塞控制算法,可有效结合 ECN(显式拥塞通知)和 PFC(优先级流量控制),以促进端到端无损以太网。

AI/ML 网络与云网络之间有一个主要区别:AI/ML 中存在更多大流量情况。换句话说,需要更高的速度来承受数据流峰值并应对不断增长的分布式计算流量。针对这些挑战,需要找到一种方法来在更高速度的环境中调整无损和低延迟网络。可以从两个角度来应对这一挑战:计算节点视图和通信网络视图。

  • 下载
  • 下载 220
  • 文件大小 381 千字节