Mark Harris

Escrito por Mark Harris

Publicado em 30 de julho de 2025

A busca incessante por modelos de IA mais inteligentes, particularmente modelos de grandes linguagens (LLMs) e algoritmos de aprendizado profundo, impulsionou uma demanda sem precedentes por poder computacional. No centro dessa revolução estão as Unidades de Processamento Gráfico (GPUs), que, com suas capacidades de processamento paralelo, são perfeitamente adequadas para os cálculos intensivos e iterativos que definem o treinamento de IA. No entanto, liberar todo o potencial de milhares de GPUs interconectadas em um ambiente de data center não é simplesmente uma questão de conectá-las. Requer uma infraestrutura de rede sofisticada, capaz de lidar com fluxos massivos de dados com latência mínima e, principalmente, perda zero de pacotes. É aqui que Ponte de Data Center (DCB), juntamente com mecanismos avançados de controle de fluxo como Controle de Fluxo Baseado em Prioridade (PFC) e Notificação Explícita de Congestionamento (ECN), torna-se absolutamente essencial.

Congestionamento de rede em clusters de GPU de larga escala, uma visão geral

Imagine uma tarefa de treinamento de IA distribuída entre centenas ou até milhares de GPUs. Essas GPUs trocam constantemente quantidades colossais de dados — parâmetros, gradientes, valores de ativação — frequentemente em rajadas altamente sincronizadas. Esse padrão de comunicação "todos para um" ou "muitos para um", conhecido como incast, pode sobrecarregar rapidamente as redes Ethernet tradicionais, comumente chamadas de colapso da taxa de transferênciaSem mecanismos adequados, os buffers de rede transbordam, levando à perda de pacotes. No contexto da IA, a perda de pacotes não é apenas um inconveniente; ela pode degradar severamente a eficiência do treinamento, aumentar o tempo de treinamento e até mesmo levar a problemas de convergência do modelo. Retransmissões devido à perda de pacotes introduzem latência significativa, anulando efetivamente as capacidades de processamento de alta velocidade das GPUs.

Conectividade de rede, congestionamento e utilização de GPU

Portanto, o sucesso da rede se torna a chave para a alta utilização dessas GPUs de capital intensivo, tanto para treinamento quanto para inferência:

  • Inferência LLM (Paralelismo de Modelos e Lotes): Para LLMs muito grandes que exigem paralelismo de modelo (onde diferentes camadas ou partes do modelo residem em GPUs diferentes, potencialmente em servidores diferentes), cada solicitação de inferência envolve transferências sequenciais de dados entre GPUs à medida que o prompt flui pelas camadas do modelo. Se o caminho de rede entre essas GPUs sofrer com congestionamento, mesmo que breve, todo o pipeline de inferência para. Da mesma forma, ao usar o processamento em lote para maximizar a utilização da GPU, uma pequena perda ou atraso de pacotes devido ao congestionamento em apenas uma parte de um lote pode atrasar a conclusão de todo o lote, causando um efeito cascata nos lotes subsequentes. Isso se traduz diretamente em uma latência de inferência mais alta para os usuários finais e uma taxa de transferência de inferência significativamente menor (consultas por segundo) para o sistema como um todo. Os recursos sem perdas do DCB garantem que essas transferências críticas entre GPUs nunca sejam interrompidas, mantendo um pipeline de inferência suave e de alta taxa de transferência e maximizando o ROI do seu investimento em GPU.
  • LLM Fine-Tuning (Treinamento Distribuído): Em um trabalho de ajuste fino distribuído entre centenas de GPUs, o processo envolve trocas frequentes e massivas de atualizações de gradiente e parâmetros de modelo (por exemplo, operações de redução total). Se a rede sofrer congestionamento, essas operações de comunicação coletiva ficam significativamente mais lentas. As GPUs, sendo processadores paralelos, ficam ociosas, aguardando que os dados de outras GPUs concluam a iteração atual antes de iniciarem a próxima. Uma GPU com utilização de computação de 100% pode estar travando para E/S de rede, o que significa que o trabalho efetivo realizado é muito menor, resultando em horas ou até dias de tempo de computação desperdiçado e aumento nos custos de nuvem/eletricidade. O PFC garante que esses pacotes críticos de redução total nunca sejam descartados, evitando lentidões catastróficas, enquanto o ECN trabalha para gerenciar proativamente o fluxo para minimizar essas esperas ociosas.

Bridging de Data Center: Criando Redes de IA Sem Perdas

Data Center Bridging (DCB) é um conjunto de padrões IEEE (802.1Qxx) projetado para aprimorar a Ethernet em ambientes de data center, especificamente para oferecer suporte a redes convergentes onde coexistem diversos tipos de tráfego (armazenamento, gerenciamento e computação de alto desempenho). A chave para o papel do DCB na IA é sua capacidade de criar uma tecido Ethernet de baixa latência e sem perdas, garantindo que o tráfego crítico de IA não sofra perdas de pacotes. Dois componentes essenciais do DCB que tornam isso possível são o Controle de Fluxo Baseado em Prioridade (PFC) e Notificação Explícita de Congestionamento (ECN).

Controle de fluxo baseado em prioridade (PFC): prevenção de perda de pacotes no nível do link

O PFC (IEEE 802.1Qbb) é um mecanismo de controle de fluxo em nível de link que estende o quadro PAUSE Ethernet tradicional. Ao contrário do quadro PAUSE padrão, que interrompe todo o tráfego em um link, o PFC permite pausa seletiva do tráfego com base na prioridade da Classe de Serviço (CoS).

Aqui está uma explicação simplificada de como o PFC funciona em um ambiente denso de GPU:

  • Classificação de tráfego: O tráfego de treinamento de IA, frequentemente utilizando Acesso Direto à Memória Remoto (RDMA) sobre Ethernet Convergente (RoCEv2), recebe uma CoS específica e de alta prioridade. Isso garante que seja tratado como dados críticos pela rede.
  • Detecção de congestionamento: Quando o buffer de saída de um switch para uma fila CoS específica (por exemplo, aquela dedicada ao tráfego RoCEv2) atinge um limite predefinido, isso significa congestionamento iminente.
  • Quadro de pausa PFC: O switch congestionado envia um quadro de pausa PFC de volta ao dispositivo de transmissão upstream (outro switch ou a Placa de Interface de Rede – NIC) de uma GPU. Esse quadro de pausa é específico para a prioridade CoS congestionada.
  • Parada Seletiva: Ao receber o quadro de pausa PFC, o dispositivo upstream interrompe temporariamente a transmissão de tráfego apenas para aquela prioridade de CoS específica. Outras classes de tráfego no mesmo link permanecem inalteradas.
  • Recuperação e retomada do buffer: À medida que o buffer congestionado se esgota e sua ocupação cai abaixo de um limite de retomada, o switch envia um quadro de retomada PFC, sinalizando ao dispositivo upstream para reiniciar a transmissão para essa prioridade.

Benefícios do PFC para GPUs:

  • Perda de Pacotes Zero: Ao pausar o tráfego antes que os buffers transbordem, o PFC garante a entrega sem perdas de dados críticos de IA, o que é fundamental para a integridade e eficiência de computações de GPU distribuídas.
  • Isolamento do Tráfego: Ele evita que uma explosão de tráfego de IA de alta prioridade afete outros tipos de tráfego menos sensíveis ao tempo no mesmo link, mantendo a estabilidade geral da rede.
  • Desempenho previsível: Ao eliminar a perda de pacotes, o PFC contribui para um desempenho mais previsível e consistente para a comunicação da GPU, reduzindo a trepidação e melhorando os tempos de conclusão do trabalho.

No entanto, o PFC pode ter limitações. Se não for projetado e configurado cuidadosamente, pode ocorrer uma "tempestade de PFC", na qual quadros de pausa se propagam extensivamente, podendo levar a lentidão ou deadlocks em toda a rede, especialmente em ambientes multi-hop. É por isso que outra tecnologia, ECN, é adicionada para complementar o PFC.

Notificação Explícita de Congestionamento (ECN): Prevenção Proativa de Congestionamento

ECN (RFC 3168) é um mecanismo que permite que dispositivos de rede sinalizem congestionamento incipiente para terminais antes ocorre perda de pacotes. Em vez de descartar pacotes, dispositivos com ECN marcam os pacotes no cabeçalho IP para indicar congestionamento. Isso fornece o nível de gerenciamento de fila ativo necessário para um tráfego confiável entre GPUs.

O processo de gerenciamento de tráfego ECN normalmente se desenrola da seguinte forma:

  • Negociação compatível com ECN: Durante o estabelecimento da conexão (por exemplo, handshake TCP), o remetente e o destinatário negociam suas capacidades ECN.
  • Marcação de congestionamento: Quando a utilização da fila de um dispositivo de rede atinge um limite de ECN (um limite inferior ao que acionaria o PFC), o dispositivo marca os pacotes de entrada compatíveis com ECN como “Congestionados” (CE).
  • Notificação do destinatário: O pacote marcado chega ao receptor compatível com ECN.
  • Feedback do remetente: O receptor então ecoa essa notificação de congestionamento de volta ao remetente (por exemplo, definindo o bit ECN-Echo (ECE) no cabeçalho TCP ou enviando um Pacote de Notificação de Congestionamento (CNP) no RoCEv2).
  • Redução de taxa: Ao receber o feedback de congestionamento, o remetente reduz proativamente sua taxa de transmissão, aliviando assim o congestionamento antes que o buffer transborde e os pacotes sejam perdidos.

Sinergia de PFC e ECN para grandes implantações de GPU:

Em clusters de IA de larga escala, compostos por centenas ou milhares de GPUs caras, o PFC e o ECN trabalham em conjunto para fornecer uma rede sem perdas robusta e eficiente, aumentando assim o valor entregue pelas próprias GPUs:

  • ECN como Primeira Linha de Defesa: A ECN atua como um mecanismo proativo, fornecendo alertas antecipados de congestionamento. Ao permitir que os remetentes reduzam suas taxas preventivamente, ela minimiza a probabilidade de atingir os limites de PFC e evita a medida mais drástica de pausar o tráfego. Essa adaptação "suave" da taxa é crucial para manter o fluxo contínuo de dados.
  • PFC como último recurso: Se as medidas proativas da ECN não forem suficientes para evitar congestionamentos, ou se ocorrerem picos repentinos e massivos de tráfego, o PFC intervém como um mecanismo reativo de parada brusca para evitar qualquer perda de pacotes no tráfego de IA mais crítico.
  • Otimizando o desempenho do RoCEv2: O RoCEv2, amplamente adotado para interconexões de GPU, depende fortemente desses mecanismos. Sinais ECN acionam algoritmos de controle de congestionamento (como a Notificação Quantizada de Congestionamento de Data Center – DCQCN) dentro das placas de rede, ajustando dinamicamente as taxas de transmissão. O PFC garante que, mesmo sob carga extrema, nenhum pacote RoCEv2 seja descartado, preservando a integridade das operações RDMA.
  • Balanceamento de latência e taxa de transferência: Ao combinar a limitação de taxa proativa do ECN com a garantia sem perdas do PFC, os arquitetos de rede podem ajustar a rede para equilibrar baixa latência para “fluxos de mouse” sensíveis a atrasos (mensagens pequenas e interativas) e alta taxa de transferência para grandes “fluxos de elefante” (transferências de dados em massa durante o treinamento).

Exemplo de empresa do mundo real: cargas de trabalho de IA multilocatário com diversos requisitos de QoS e SLA

Em uma grande empresa, um cluster de IA raramente é dedicado a uma única tarefa. Considere um ambiente multilocatário em que o mesmo cluster de GPU suporta diversas cargas de trabalho de IA distintas:

  • Equipes de Pesquisa e Desenvolvimento (P&D): Executar tarefas experimentais de ajuste fino do LLM para novos recursos do produto. Essas tarefas costumam ser grandes, de longa duração e podem tolerar uma latência inicial ligeiramente maior, mas exigem largura de banda garantida para serem concluídas dentro de uma janela de tempo específica (por exemplo, durante a noite, com um SLA para conclusão pela manhã). Para elas, uma taxa de transferência consistente para evitar atrasos no treinamento é fundamental, mesmo que isso signifique desacelerar momentaneamente outros tráfegos de menor prioridade.
  • O departamento de Controle de Qualidade de Fabricação (CQ): requer detecção de defeitos em tempo real nas linhas de montagem, exigindo latência extremamente baixa (<10ms) and near-zero packet loss (e.g., SLA of 99.999% successful inferences) to prevent production line stoppages.
  • Equipe de Análise de Risco Financeiro: Execução de trabalhos de inferência em lote para detecção de fraudes ou previsão de mercado. Esses trabalhos são essenciais, mas menos interativos, exigindo alto rendimento para grandes conjuntos de dados a serem processados dentro de uma janela de conformidade específica (por exemplo, até o final do dia).

O DCB, com PFC e ECN, permite que os administradores de rede classifiquem e priorizem esses diversos tipos de tráfego. O tráfego RoCEv2 para consultas de inferência sensíveis à latência pode receber o CoS de maior prioridade com limites de ECN agressivos para garantir a redução proativa da taxa, enquanto o tráfego de treinamento recebe um CoS de alta prioridade para entrega sem perdas, e o restante do tráfego em segundo plano usa uma classe padrão. Esse sofisticado gerenciamento de tráfego garante que as consultas de inferência de alta prioridade não sejam prejudicadas por uma tarefa de treinamento massiva, garantindo que os requisitos de SLA de cada locatário sejam atendidos na infraestrutura de GPU compartilhada.

Conclusão

À medida que os modelos de IA continuam a crescer em complexidade e escala, a infraestrutura de rede de escalonamento horizontal subjacente torna-se um componente cada vez mais crítico do desempenho geral do sistema. O Data Center Bridging, com seus recursos fundamentais de Controle de Fluxo Baseado em Prioridade (PFC) e Notificação Explícita de Congestionamento (ECN), não é meramente uma otimização ou um recurso desejável; é um facilitador fundamental e de extrema importância para a construção de soluções de computação de IA eficientes, confiáveis e escaláveis com grandes investimentos em GPUs. Ao selecionar soluções de conectividade de rede que garantam comunicação sem perdas, gerenciem o congestionamento proativamente e forneçam controle granular sobre o tráfego, soluções escaláveis baseadas nessas tecnologias DCB capacitarão as empresas e suas estratégias de IA a expandir os limites do que é possível usando tecnologias padrão do setor, acelerando o ritmo da inovação na era da inteligência artificial.

Se você tiver algum comentário, pergunta ou dúvida sobre nossos produtos e serviços, preencha o formulário a seguir.

Ao enviar este formulário, você concorda que podemos usar os dados fornecidos para entrar em contato com você com informações relacionadas à sua solicitação/envio e às soluções e serviços da Edgecore.
Para obter mais informações sobre como lidamos e usamos suas informações pessoais, consulte nossa política de Privacidade.