Escrito por Mark Harris

Publicado em 30 de julho de 2025

A busca incessante por modelos de IA mais inteligentes, particularmente grandes modelos de linguagem (LLMs) e algoritmos de aprendizado profundo, impulsionou uma demanda sem precedentes por poder computacional. No centro dessa revolução estão as Unidades de Processamento Gráfico (GPUs), que, com suas capacidades de processamento paralelo, são perfeitamente adequadas para os cálculos intensivos e iterativos que definem o treinamento de IA. No entanto, liberar todo o potencial de milhares de GPUs interconectadas em um ambiente de data center não é simplesmente uma questão de conectá-las. Requer uma infraestrutura de rede sofisticada, capaz de lidar com fluxos massivos de dados com latência mínima e, crucialmente, zero perda de pacotes. É aqui que entra o poder computacional. Ponte de Data Center (DCB), juntamente com mecanismos avançados de controle de fluxo como Controle de Fluxo Baseado em Prioridade (PFC) e Notificação Explícita de Congestionamento (ECN), torna-se absolutamente essencial.

Congestionamento de rede em clusters de GPU de larga escala, uma visão geral

Imagine uma tarefa de treinamento de IA distribuída por centenas ou até milhares de GPUs. Essas GPUs trocam constantemente quantidades colossais de dados — parâmetros, gradientes, valores de ativação — frequentemente em rajadas altamente sincronizadas. Esse padrão de comunicação "todos para um" ou "muitos para um", conhecido como incast, pode sobrecarregar rapidamente as redes Ethernet tradicionais, comumente chamadas de colapso da taxa de transferênciaSem mecanismos adequados, os buffers de rede transbordam, levando à perda de pacotes. No contexto da IA, a perda de pacotes não é apenas um inconveniente; ela pode degradar severamente a eficiência do treinamento, aumentar o tempo de treinamento e até mesmo levar a problemas de convergência do modelo. Retransmissões devido à perda de pacotes introduzem latência significativa, anulando efetivamente as capacidades de processamento de alta velocidade das GPUs.

Conectividade de rede, congestionamento e utilização de GPU

Portanto, o sucesso da rede se torna a chave para a alta utilização dessas GPUs de capital intensivo, tanto para treinamento quanto para inferência:

Inferência LLM (Paralelismo de Modelos e Lotes): Para modelos de lógica de camada única (LLMs) muito grandes que exigem paralelismo (onde diferentes camadas ou partes do modelo residem em GPUs diferentes, potencialmente em servidores diferentes), cada solicitação de inferência envolve transferências sequenciais de dados entre GPUs à medida que o fluxo de dados percorre as camadas do modelo. Se o caminho de rede entre essas GPUs sofrer congestionamento, mesmo que breve, todo o pipeline de inferência é interrompido. Da mesma forma, ao usar o processamento em lote para maximizar a utilização da GPU, uma pequena quantidade de perda de pacotes ou atraso devido ao congestionamento em apenas uma parte de um lote pode atrasar a conclusão de todo o lote, causando um efeito cascata nos lotes subsequentes. Isso se traduz diretamente em uma latência de inferência maior para os usuários finais e uma taxa de transferência de inferência significativamente menor (consultas por segundo) para o sistema como um todo. Os recursos de processamento sem perdas do DCB garantem que essas transferências críticas entre GPUs nunca sejam interrompidas, mantendo um pipeline de inferência estável e de alta taxa de transferência e maximizando o retorno sobre o investimento em GPUs.

LLM Fine-Tuning (Treinamento Distribuído): Em um trabalho de ajuste fino distribuído entre centenas de GPUs, o processo envolve trocas frequentes e massivas de atualizações de gradiente e parâmetros de modelo (por exemplo, operações de redução total). Se a rede sofrer congestionamento, essas operações de comunicação coletiva ficam significativamente mais lentas. As GPUs, sendo processadores paralelos, ficam ociosas, aguardando que os dados de outras GPUs concluam a iteração atual antes de iniciarem a próxima. Uma GPU com utilização de computação de 100% pode estar travando para E/S de rede, o que significa que o trabalho efetivo realizado é muito menor, resultando em horas ou até dias de tempo de computação desperdiçado e aumento nos custos de nuvem/eletricidade. O PFC garante que esses pacotes críticos de redução total nunca sejam descartados, evitando lentidões catastróficas, enquanto o ECN trabalha para gerenciar proativamente o fluxo para minimizar essas esperas ociosas.

Bridging de Data Center: Criando Redes de IA Sem Perdas

O Data Center Bridging (DCB) é um conjunto de padrões IEEE (802.1Qxx) projetado para aprimorar o Ethernet em ambientes de data center, especificamente para suportar redes convergentes onde vários tipos de tráfego (armazenamento, gerenciamento e computação de alto desempenho) coexistem. A chave para o papel do DCB na IA é sua capacidade de criar uma tecido Ethernet de baixa latência e sem perdas, garantindo que o tráfego crítico de IA não sofra perdas de pacotes. Dois componentes essenciais do DCB que tornam isso possível são o Controle de Fluxo Baseado em Prioridade (PFC) e Notificação Explícita de Congestionamento (ECN).

Controle de fluxo baseado em prioridade (PFC): prevenção de perda de pacotes no nível do link

O PFC (IEEE 802.1Qbb) é um mecanismo de controle de fluxo em nível de link que estende o quadro PAUSE Ethernet tradicional. Ao contrário do quadro PAUSE padrão, que interrompe todo o tráfego em um link, o PFC permite pausa seletiva do tráfego com base na prioridade da Classe de Serviço (CoS).

Segue uma explicação simplificada de como o PFC funciona em um ambiente com muitas GPUs:

Classificação de tráfego: O tráfego de treinamento de IA, que geralmente utiliza Acesso Direto à Memória Remota (RDMA) sobre Ethernet Convergida (RoCEv2), recebe um CoS específico de alta prioridade. Isso garante que ele seja tratado como dado crítico pela rede.
Detecção de congestionamento: Quando o buffer de saída de um switch para uma fila CoS específica (por exemplo, aquela dedicada ao tráfego RoCEv2) atinge um limite predefinido, isso indica congestionamento iminente.
Quadro de pausa PFC: O switch congestionado envia um quadro de pausa PFC de volta para o dispositivo transmissor upstream (outro switch ou a placa de interface de rede – NIC) de uma GPU). Este quadro de pausa é específico para a prioridade CoS congestionada.
Parada Seletiva: Ao receber o quadro de pausa PFC, o dispositivo upstream interrompe temporariamente a transmissão de tráfego apenas para aquela prioridade de CoS específica. Outras classes de tráfego no mesmo link permanecem inalteradas.
Recuperação e retomada do buffer: À medida que o buffer congestionado se esgota e sua ocupação cai abaixo de um limite de retomada, o switch envia um quadro de retomada PFC, sinalizando ao dispositivo upstream para reiniciar a transmissão para essa prioridade.

Benefícios do PFC para GPUs:

Perda de Pacotes Zero: Ao pausar o tráfego antes que os buffers transbordem, o PFC garante a entrega sem perdas de dados críticos de IA, o que é fundamental para a integridade e eficiência de computações de GPU distribuídas.
Isolamento do Tráfego: Ele evita que uma explosão de tráfego de IA de alta prioridade afete outros tipos de tráfego menos sensíveis ao tempo no mesmo link, mantendo a estabilidade geral da rede.
Desempenho previsível: Ao eliminar a perda de pacotes, o PFC contribui para um desempenho mais previsível e consistente para a comunicação da GPU, reduzindo a trepidação e melhorando os tempos de conclusão do trabalho.

No entanto, o PFC pode ter limitações. Se não for cuidadosamente projetado e configurado, pode ocorrer uma "tempestade de PFC", onde os quadros de pausa se propagam amplamente, podendo levar a lentidão ou impasses em toda a rede, especialmente em ambientes com múltiplos saltos. É por isso que outra tecnologia, ECN, é adicionada para complementar o PFC.

Notificação Explícita de Congestionamento (ECN): Prevenção Proativa de Congestionamento

ECN (RFC 3168) é um mecanismo que permite que dispositivos de rede sinalizem congestionamento incipiente para terminais antes ocorre perda de pacotes. Em vez de descartar pacotes, dispositivos com ECN marcam os pacotes no cabeçalho IP para indicar congestionamento. Isso fornece o nível de gerenciamento de fila ativo necessário para um tráfego confiável entre GPUs.

O processo de gerenciamento de tráfego ECN normalmente se desenrola da seguinte forma:

Negociação compatível com ECN: Durante o estabelecimento da conexão (por exemplo, handshake TCP), o remetente e o destinatário negociam suas capacidades ECN.
Marcação de congestionamento: Quando a utilização da fila de um dispositivo de rede atinge um limite ECN (um limite inferior ao que acionaria o PFC), o dispositivo marca os pacotes ECN-capazes recebidos como "Congestionados" (CE).
Notificação do destinatário: O pacote marcado chega ao receptor compatível com ECN.
Feedback do remetente: O receptor então ecoa essa notificação de congestionamento de volta ao remetente (por exemplo, definindo o bit ECN-Echo (ECE) no cabeçalho TCP ou enviando um Pacote de Notificação de Congestionamento (CNP) no RoCEv2).
Redução de taxa: Ao receber o feedback de congestionamento, o remetente reduz proativamente sua taxa de transmissão, aliviando assim o congestionamento antes que o buffer transborde e os pacotes sejam perdidos.

Sinergia de PFC e ECN para grandes implantações de GPU:

Em clusters de IA de larga escala, compostos por centenas ou milhares de GPUs caras, o PFC e o ECN trabalham em conjunto para fornecer uma rede sem perdas robusta e eficiente, aumentando assim o valor entregue pelas próprias GPUs:

ECN como Primeira Linha de Defesa: O ECN atua como um mecanismo proativo, fornecendo alertas antecipados de congestionamento. Ao permitir que os remetentes reduzam suas taxas preventivamente, ele minimiza a probabilidade de atingir os limites de PFC e evita a medida mais drástica de pausar o tráfego. Essa adaptação "suave" da taxa é crucial para manter o fluxo contínuo de dados.
PFC como último recurso: Caso as medidas proativas da ECN não sejam suficientes para evitar congestionamentos, ou se ocorrerem picos repentinos e massivos de tráfego, o PFC entra em ação como um mecanismo reativo de parada obrigatória para evitar qualquer perda de pacotes no tráfego de IA mais crítico.
Otimizando o desempenho do RoCEv2: O RoCEv2, amplamente adotado para interconexões de GPUs, depende fortemente desses mecanismos. Os sinais ECN acionam algoritmos de controle de congestionamento (como o Data Center Quantized Congestion Notification – DCQCN) nas NICs, ajustando dinamicamente as taxas de transmissão. O PFC garante que, mesmo sob carga extrema, nenhum pacote RoCEv2 seja descartado, preservando a integridade das operações RDMA.
Balanceamento de latência e taxa de transferência: Ao combinar a limitação de taxa proativa do ECN com a garantia de ausência de perdas do PFC, os arquitetos de rede podem ajustar a rede com precisão para equilibrar a baixa latência para fluxos de dados pequenos e sensíveis ao atraso (mensagens pequenas e interativas) e a alta taxa de transferência para fluxos de dados grandes e volumosos (transferências de dados em massa durante o treinamento).

Exemplo de empresa do mundo real: cargas de trabalho de IA multilocatário com diversos requisitos de QoS e SLA

Em uma grande empresa, um cluster de IA raramente é dedicado a uma única tarefa. Considere um ambiente multilocatário em que o mesmo cluster de GPU suporta diversas cargas de trabalho de IA distintas:

Equipes de Pesquisa e Desenvolvimento (P&D): Executar tarefas experimentais de ajuste fino do LLM para novos recursos do produto. Essas tarefas costumam ser grandes, de longa duração e podem tolerar uma latência inicial ligeiramente maior, mas exigem largura de banda garantida para serem concluídas dentro de uma janela de tempo específica (por exemplo, durante a noite, com um SLA para conclusão pela manhã). Para elas, uma taxa de transferência consistente para evitar atrasos no treinamento é fundamental, mesmo que isso signifique desacelerar momentaneamente outros tráfegos de menor prioridade.
O departamento de Controle de Qualidade de Fabricação (CQ): Requer detecção de defeitos em tempo real em linhas de montagem, exigindo latência extremamente baixa (<10ms) e perda de pacotes próxima de zero (por exemplo, SLA de 99,999% inferências bem-sucedidas) para evitar paradas na linha de produção.
Equipe de Análise de Risco Financeiro: Execução de trabalhos de inferência em lote para detecção de fraudes ou previsão de mercado. Esses trabalhos são essenciais, mas menos interativos, exigindo alto rendimento para grandes conjuntos de dados a serem processados dentro de uma janela de conformidade específica (por exemplo, até o final do dia).

O DCB, com PFC e ECN, permite que os administradores de rede classifiquem e priorizem esses diversos tipos de tráfego. O tráfego RoCEv2 para consultas de inferência sensíveis à latência pode receber a CoS de maior prioridade com limites ECN rigorosos para garantir a redução proativa da taxa, enquanto o tráfego de treinamento recebe uma CoS de alta prioridade para entrega sem perdas, e outros tráfegos de fundo usam uma classe padrão. Esse gerenciamento de tráfego sofisticado garante que as consultas de inferência de alta prioridade não sejam prejudicadas por uma tarefa de treinamento massiva, assegurando que os requisitos de SLA de cada cliente sejam atendidos na infraestrutura de GPU compartilhada.

Conclusão

À medida que os modelos de IA continuam a crescer em complexidade e escala, a infraestrutura de rede escalável subjacente torna-se um componente cada vez mais crítico para o desempenho geral do sistema. O Data Center Bridging (DCB), com seus recursos fundamentais de Controle de Fluxo Baseado em Prioridade (PFC) e Notificação Explícita de Congestionamento (ECN), não é meramente uma otimização ou um recurso desejável; é um facilitador fundamental e essencial para a construção de soluções de computação de IA eficientes, confiáveis e escaláveis, com grandes investimentos em GPUs. Ao selecionar soluções de conectividade de rede que garantam comunicação sem perdas, gerenciem proativamente o congestionamento e forneçam controle granular sobre o tráfego, as soluções escaláveis baseadas nessas tecnologias DCB capacitarão as empresas e suas estratégias de IA a expandir os limites do que é possível usando tecnologias padrão do setor, acelerando o ritmo da inovação na era da inteligência artificial.

Se tiver algum comentário, dúvida ou pergunta sobre nossos produtos e serviços, preencha o formulário abaixo.

Primeiro nome *

Sobrenome

Empresa/Organização

E-mail comercial *

As categorias de produtos/soluções de interesse *

País/Região

Comentários

Sim, também gostaria de me inscrever para receber a newsletter (opcional)

Obrigado pela sua mensagem. Ela já foi enviada.

Ocorreu um erro ao tentar enviar sua mensagem. Tente novamente mais tarde.

Ao enviar este formulário, você concorda que podemos usar os dados fornecidos para entrar em contato com você com informações relacionadas à sua solicitação/envio e às soluções e serviços da Edgecore.
Para obter mais informações sobre como lidamos e usamos suas informações pessoais, consulte nossa política de Privacidade.