
Visão geral
Nos últimos anos, a demanda por recursos de Inteligência Artificial e Aprendizado de Máquina (IA/ML) em data centers tem aumentado. A maioria das aplicações agora utiliza aprendizado de máquina profundo com implantação em redes neurais distribuídas. Essa abordagem garante que os recursos permaneçam desbloqueados e sejam calculados em paralelo, permitindo um escalonamento perfeito para atender à crescente demanda por serviços. Em ambientes de rede de alta velocidade como esse, o DCQCN (Data Center Quantized Congestion Notification) se destaca como um algoritmo de controle de congestionamento essencial em redes RoCEv2, combinando efetivamente ECN (Explicit Congestion Notification) e PFC (Priority Flow Control) para facilitar a Ethernet sem perdas de ponta a ponta.
Há uma diferença principal entre redes de IA/ML e redes em nuvem: há mais casos de fluxo de elefantes em IA/ML. Em outras palavras, velocidades mais altas são necessárias para tolerar o pico de fluxo de dados e lidar com o crescente tráfego de computação distribuída. Diante desses desafios, é preciso encontrar uma maneira de ajustar a rede sem perdas e de baixa latência em um ambiente de alta velocidade. Esse desafio pode ser abordado de duas perspectivas: uma visão de nó de computação e uma visão de rede de comunicação.
- Download
- Download 468
- Tamanho do Arquivo 381 KB
