Mark Harris

Автор Марк Харрис

Опубликовано 30 июля 2025 г.

Неустанное стремление к созданию более интеллектуальных моделей искусственного интеллекта, в частности, больших языковых моделей (LLM) и алгоритмов глубокого обучения, привело к беспрецедентному спросу на вычислительные мощности. В основе этой революции лежат графические процессоры (GPU), которые благодаря своим возможностям параллельной обработки идеально подходят для интенсивных итеративных вычислений, определяющих обучение ИИ. Однако раскрытие полного потенциала тысяч взаимосвязанных GPU в среде центра обработки данных — это не просто вопрос их подключения. Для этого требуется сложная сетевая инфраструктура, способная обрабатывать огромные потоки данных с минимальной задержкой и, что особенно важно, без потери пакетов. Именно здесь Мостовое соединение центров обработки данных (DCB), в сочетании с передовыми механизмами управления потоком, такими как Управление потоком на основе приоритетов (PFC) и Явное уведомление о перегрузке (ECN), становится абсолютно необходимым.

Перегрузка сети в крупномасштабных кластерах графических процессоров: обзор

Представьте себе задачу обучения ИИ, распределенную между сотнями или даже тысячами графических процессоров. Эти графические процессоры постоянно обмениваются колоссальными объемами данных — параметрами, градиентами, значениями активации — часто в пакетном режиме с высокой степенью синхронизации. Этот шаблон взаимодействия «все к одному» или «многие к одному», известный как инкаст, может быстро подавить традиционные сети Ethernet, обычно называемые коллапс пропускной способностиБез соответствующих механизмов сетевые буферы переполняются, что приводит к потере пакетов. В контексте искусственного интеллекта потеря пакетов — это не просто неудобство; она может значительно снизить эффективность обучения, увеличить время обучения и даже привести к проблемам со сходимостью моделей. Повторные передачи данных из-за потери пакетов приводят к значительной задержке, фактически сводя на нет возможности высокоскоростной обработки данных графическими процессорами.

Сетевое подключение, перегрузка и использование графического процессора

Таким образом, успех сети становится ключом к высокой загрузке этих капиталоемких графических процессоров как для обучения, так и для вывода:

  • Вывод LLM (параллелизм и пакетирование моделей): Для очень больших LLM, требующих параллелизма модели (где разные слои или части модели находятся на разных графических процессорах, потенциально на разных серверах), каждый запрос вывода включает последовательную передачу данных между графическими процессорами по мере прохождения запроса через слои модели. Если сетевой путь между этими графическими процессорами испытывает даже кратковременную перегрузку, весь конвейер вывода останавливается. Аналогично, при использовании пакетирования для максимизации использования графического процессора небольшая потеря пакетов или задержка из-за перегрузки только одной части пакета может задержать завершение всего пакета, вызывая резонансный эффект для последующих пакетов. Это напрямую приводит к более высокой задержке вывода для конечных пользователей и значительному снижению пропускной способности вывода (количество запросов в секунду) для всей системы. Возможности DCB без потерь гарантируют, что эти критически важные передачи между графическими процессорами никогда не прерываются, поддерживая плавный, высокопроизводительный конвейер вывода и максимизируя окупаемость инвестиций в графические процессоры.
  • Тонкая настройка LLM (распределенное обучение): В распределённой задаче тонкой настройки, охватывающей сотни графических процессоров, процесс включает в себя частый и массовый обмен обновлениями градиента и параметрами модели (например, операции All-Reduce). При перегрузке сети эти коллективные коммуникационные операции значительно замедляются. Графические процессоры, являющиеся параллельными процессорами, простаивают, ожидая данных от других графических процессоров для завершения текущей итерации, прежде чем начать следующую. Графический процессор с загрузкой 100% может простаивать из-за сетевого ввода-вывода, что означает значительное снижение эффективности работы, что приводит к часам или даже дням потерянного вычислительного времени и увеличению расходов на облако/электроэнергию. PFC гарантирует, что эти критически важные пакеты All-Reduce никогда не будут потеряны, предотвращая катастрофические замедления, в то время как ECN проактивно управляет потоком, минимизируя эти простои.

Соединение центров обработки данных: создание сетей искусственного интеллекта без потерь

Data Center Bridging (DCB) — это набор стандартов IEEE (802.1Qxx), разработанных для улучшения Ethernet в средах центров обработки данных, в частности, для поддержки конвергентных сетей, где одновременно присутствуют различные типы трафика (хранение данных, управление и высокопроизводительные вычисления). Ключевая роль DCB в сфере искусственного интеллекта заключается в его способности создавать Ethernet-структура с низкой задержкой и без потерь, гарантируя отсутствие потерь пакетов в критически важном трафике ИИ. Два ключевых компонента DCB, которые обеспечивают это, — это управление потоком на основе приоритетов (ПФК) и явное уведомление о перегрузке (ECN).

Управление потоком на основе приоритетов (PFC): предотвращение потери пакетов на уровне канала

PFC (IEEE 802.1Qbb) — это механизм управления потоком данных на уровне канала, расширяющий возможности традиционного кадра Ethernet PAUSE. В отличие от стандартного кадра PAUSE, который останавливает весь трафик в канале, PFC позволяет выборочная приостановка трафика на основе его приоритета класса обслуживания (CoS).

Вот упрощенное объяснение того, как работает PFC в среде с высокой плотностью графических процессоров:

  • Классификация трафика: Трафику обучения ИИ, часто использующему удалённый прямой доступ к памяти (RDMA) через конвергентный Ethernet (RoCEv2), назначается определённый высокоприоритетный CoS. Это гарантирует, что сеть будет рассматривать его как критически важные данные.
  • Обнаружение перегрузки: Когда выходной буфер коммутатора для определенной очереди CoS (например, выделенной для трафика RoCEv2) достигает предварительно определенного порога, это означает надвигающуюся перегрузку.
  • Кадр паузы PFC: Перегруженный коммутатор отправляет кадр паузы PFC обратно на передающее устройство (другой коммутатор или сетевую карту графического процессора). Этот кадр паузы соответствует приоритету CoS, заданному при перегрузке.
  • Избирательная остановка: Получив кадр паузы PFC, вышестоящее устройство временно прекращает передачу трафика только с заданным приоритетом CoS. Другие классы трафика в том же канале остаются без изменений.
  • Восстановление буфера и возобновление работы: Когда переполненный буфер опустошается и его занятость падает ниже порога возобновления, коммутатор отправляет кадр возобновления PFC, сигнализируя вышестоящему устройству о необходимости возобновить передачу для этого приоритета.

Преимущества PFC для графических процессоров:

  • Нулевая потеря пакетов: Приостанавливая трафик до переполнения буферов, PFC гарантирует доставку критически важных данных ИИ без потерь, что имеет первостепенное значение для целостности и эффективности распределенных вычислений GPU.
  • Изоляция трафика: Это предотвращает влияние всплеска высокоприоритетного трафика ИИ на другие, менее чувствительные ко времени типы трафика в том же канале, поддерживая общую стабильность сети.
  • Предсказуемая производительность: Устраняя потерю пакетов, PFC обеспечивает более предсказуемую и стабильную производительность связи с графическим процессором, уменьшая дрожание и ускоряя выполнение задач.

Однако PFC может иметь ограничения. При неправильном проектировании и настройке может возникнуть «шторм PFC», когда кадры паузы распространяются слишком быстро, что может привести к замедлению работы сети или зависаниям, особенно в многоадресных средах. Вот почему в дополнение к PFC добавлена еще одна технология — ECN..

Явное уведомление о перегрузке (ECN): упреждающее предотвращение перегрузки

ECN (RFC 3168) — это механизм, который позволяет сетевым устройствам сообщать конечным точкам о зарождающейся перегрузке. до Происходит потеря пакетов. Вместо того, чтобы отбрасывать пакеты, устройства с поддержкой ECN помечают их в заголовке IP, указывая на перегрузку. Это обеспечивает уровень активного управления очередями, необходимый для надёжного трафика между графическими процессорами.

Процесс управления трафиком ECN обычно происходит следующим образом:

  • Переговоры с поддержкой ECN: Во время установления соединения (например, TCP-квитирования) отправитель и получатель согласовывают свои возможности ECN.
  • Маркировка заторов: Когда использование очереди сетевого устройства достигает порогового значения ECN (более низкого порогового значения, чем тот, который активирует PFC), устройство отмечает входящие пакеты с поддержкой ECN как «Ощущается перегрузка» (CE).
  • Уведомление получателя: Маркированный пакет достигает приемника с поддержкой ECN.
  • Отзыв отправителя: Затем получатель возвращает это уведомление о перегрузке отправителю (например, устанавливая бит ECN-Echo (ECE) в заголовке TCP или отправляя пакет уведомления о перегрузке (CNP) в RoCEv2).
  • Снижение ставки: Получив обратную связь о перегрузке, отправитель заблаговременно снижает скорость передачи, тем самым уменьшая перегрузку до того, как буфер переполнится и пакеты будут потеряны.

Синергия PFC и ECN для крупных развертываний GPU:

В крупномасштабных кластерах ИИ, состоящих из сотен или тысяч дорогостоящих графических процессоров, PFC и ECN работают в тандеме, обеспечивая надежную и эффективную сеть без потерь и, следовательно, повышая отдачу от самих графических процессоров:

  • ECN как первая линия обороны: ECN действует как проактивный механизм, обеспечивая раннее предупреждение о перегрузке. Позволяя отправителям заблаговременно снижать скорость, он минимизирует вероятность достижения пороговых значений PFC и позволяет избежать более радикальной меры — приостановки трафика. Такая «мягкая» адаптация скорости критически важна для поддержания непрерывности потока данных.
  • PFC как последнее средство: Если упреждающие меры ECN недостаточны для предотвращения перегрузки или происходят внезапные, масштабные всплески трафика, PFC вступает в действие как реактивный механизм жесткой остановки, чтобы предотвратить любую потерю пакетов для наиболее важного трафика ИИ.
  • Оптимизация производительности RoCEv2: RoCEv2, широко используемый для соединений графических процессоров, в значительной степени опирается на эти механизмы. Сигналы ECN запускают алгоритмы управления перегрузкой (например, уведомление о квантованной перегрузке центра обработки данных (DCQCN)) на сетевых картах, динамически корректируя скорость передачи. PFC гарантирует, что даже при экстремальной нагрузке ни один пакет RoCEv2 не будет потерян, сохраняя целостность операций RDMA.
  • Баланс задержки и пропускной способности: Объединяя проактивное ограничение скорости ECN с гарантией отсутствия потерь PFC, сетевые архитекторы могут точно настраивать сеть, чтобы сбалансировать низкую задержку для чувствительных к задержкам «потоков мышей» (небольших интерактивных сообщений) и высокую пропускную способность для больших «потоков слонов» (передача больших объемов данных во время обучения).

Пример реального предприятия: многопользовательские рабочие нагрузки ИИ с различными требованиями к качеству обслуживания и уровню обслуживания (SLA)

В крупных предприятиях кластер ИИ редко предназначен для решения одной задачи. Рассмотрим многопользовательскую среду, в которой один и тот же кластер графических процессоров поддерживает несколько различных рабочих нагрузок ИИ:

  • Научно-исследовательские и опытно-конструкторские группы (НИОКР): Выполнение экспериментальных заданий LLM по тонкой настройке новых функций продукта. Эти задания часто большие, длительные и могут допускать немного большую начальную задержку, но требуют гарантированной пропускной способности для выполнения в течение определенного временного окна (например, за ночь, с соглашением об уровне обслуживания (SLA) о завершении к утру). Для них первостепенное значение имеет стабильная пропускная способность, позволяющая избежать задержек обучения, даже если это означает кратковременное замедление другого, менее приоритетного трафика.
  • Отдел контроля качества производства (КК): требует обнаружения дефектов в режиме реального времени на сборочных линиях, требуя при этом крайне низкой задержки (<10 мс) и практически нулевой потери пакетов (например, SLA 99,999% успешных выводов) для предотвращения остановок производственной линии.
  • Команда анализа финансовых рисков: Выполнение пакетных заданий по логическому выводу для выявления мошенничества или прогнозирования рынка. Эти задания критически важны, но менее интерактивны и требуют высокой пропускной способности для обработки больших наборов данных в течение определенного периода времени (например, до конца дня).

DCB с PFC и ECN позволяет сетевым администраторам классифицировать и приоритизировать эти разнообразные типы трафика. Трафику RoCEv2 для чувствительных к задержке запросов на вывод может быть назначен наивысший приоритет CoS с агрессивными порогами ECN для обеспечения упреждающего снижения скорости, в то время как обучающий трафик получает высокоприоритетный CoS для доставки без потерь, а другой фоновый трафик использует стандартный класс. Такое сложное управление трафиком гарантирует, что высокоприоритетные запросы на вывод не будут перегружены масштабной задачей обучения, обеспечивая выполнение требований SLA каждого клиента в общей инфраструктуре графических процессоров.

Заключение

По мере того, как модели ИИ продолжают усложняться и масштабироваться, базовая масштабируемая сетевая инфраструктура становится всё более важным компонентом общей производительности системы. Технология Data Center Bridging с её ключевыми функциями управления потоком на основе приоритетов (PFC) и явного уведомления о перегрузке (ECN) — это не просто оптимизация или приятный бонус; это критически важный и фундаментальный инструмент для создания эффективных, надёжных и масштабируемых вычислительных решений на основе ИИ с крупными инвестициями в графические процессоры. Выбирая решения для сетевого подключения, которые обеспечивают связь без потерь, проактивно управляют перегрузкой и обеспечивают детальный контроль трафика, масштабируемые решения на основе этих технологий DCB позволят предприятиям и их стратегиям в области ИИ расширить границы возможного, используя стандартные отраслевые технологии, ускоряя темпы инноваций в эпоху искусственного интеллекта.

Если у вас есть какие-либо комментарии, запросы или вопросы относительно наших продуктов и услуг, пожалуйста, заполните следующую форму.

Отправляя эту форму, вы соглашаетесь с тем, что мы можем использовать предоставленные вами данные для связи с вами по поводу информации, касающейся вашего запроса/отправки, а также решений и услуг Edgecore.
Более подробную информацию о том, как мы обрабатываем и используем вашу личную информацию, см. в нашем Политика конфиденциальности.

СВЯЗАННЫЕ НОВОСТИ