Белая бумага

Информационный документ по искусственному интеллекту и машинному обучению

Является ли ваша сеть узким местом в вашем кластере ИИ/машинного обучения?

Поскольку центры обработки данных быстро масштабируются для размещения распределенных нейронных сетей, традиционные сетевые архитектуры часто не справляются с жесткими требованиями "потоков данных" и параллельных вычислений. Разница между зависшей задачей обучения и успешным развертыванием часто заключается в эффективности используемого транспортного протокола.

Данный технический документ, "Опыт работы в области сетевых технологий ИИ/машинного обучения"." Данное руководство содержит исчерпывающий перечень способов оптимизации высокопроизводительных вычислительных сред с использованием RDMA поверх конвергентного Ethernet (RoCEv2). В отличие от традиционных стеков TCP/IP, которые чрезмерно нагружают ЦП копированием буфера, технология RDMA использует возможности "нулевого копирования" и "обхода ОС", обеспечивая прямой доступ к памяти, что значительно снижает задержку и нагрузку на ЦП.

Внутри вы обнаружите:

  • Преимущества RoCEv2Почему RoCEv2 предлагает более масштабируемую и экономически эффективную альтернативу InfiniBand без ущерба для маршрутизации или производительности.
  • Достижение бесперебойной работы EthernetПодробное описание настройки приоритетного управления потоком (PFC) для предотвращения потери пакетов во время всплесков активности.
  • Управление транспортными заторамиКак реализовать явное уведомление о перегрузке (ECN) совместно с PFC для динамического регулирования скорости передачи данных до возникновения узких мест.

Загрузите полный отчет, чтобы узнать, как настроить вашу сеть для обеспечения высокой пропускной способности и низкой задержки, необходимых для современных задач искусственного интеллекта.