A Red Hat apresentou oficialmente o llm-d, um novo projeto de código aberto focado em resolver um dos principais desafios técnicos da IA generativa em produção: a inferência em grande escala. O anúncio faz parte de uma aliança com parceiros estratégicos como CoreWeave, Google Cloud, IBM Research e NVIDIA. Outras entidades relevantes do setor tecnológico juntaram-se a esta colaboração, incluindo AMD, Cisco, Intel, Hugging Face, Lambda e Mistral AI. Além disso, o projeto conta com o apoio académico da Universidade da Califórnia, Berkeley, e da Universidade de Chicago.

O objetivo do llm-d é oferecer uma solução técnica que permita implementar modelos de IA generativa de forma eficiente, segura e escalável. Para isso, integra uma arquitetura baseada em Kubernetes, utiliza a tecnologia vLLM como motor de inferência e emprega um roteamento de rede com consciência de IA para distribuir a carga de trabalho de forma inteligente entre servidores. Com isto, procura-se garantir o cumprimento de objetivos de nível de serviço (SLO) exigentes em ambientes de produção.

Embora a formação continue seja essencial, a escalabilidade e a eficiência na inferência se tornaram fatores-chave para a implantação de aplicações reais de IA. De acordo com dados da Gartner, mais de 80% dos aceleradores em centros de dados serão orientados para a inferência antes de 2028, refletindo uma mudança estrutural na cadeia de valor da IA.

A arquitetura do llm-d apresenta uma série de componentes projetados para otimizar o desempenho e minimizar o custo total de propriedade (TCO) em ambientes empresariais. Entre eles, destacam-se a separação das fases de processamento em prefill e decode, que permite distribuir a carga entre servidores, e a capacidade de descarga de cache KV, uma técnica que desloca a memória intermédia da GPU para soluções de armazenamento mais económicas, como CPU ou rede.

Além disso, o llm-d integra controladores e clusters baseados em Kubernetes, que adaptam dinamicamente os recursos às flutuações da demanda, mantendo baixa a latência e aumentando o desempenho. O projeto também incorpora APIs de comunicação de alto desempenho, com suporte para bibliotecas como a NVIDIA Inference Xfer Library (NIXL), voltadas para melhorar a eficiência da troca de dados entre nós.

Outro aspeto de destaque é o seu sistema de roteamento inteligente, que permite direcionar solicitações para servidores que mantêm cálculos recentes em memória, maximizando assim a reutilização de dados e reduzindo o tempo de resposta nas operações de inferência.

Uma comunidade multissetorial ao serviço da IA aberta

O desenvolvimento do llm-d foi concebido desde o início como um projeto de colaboração aberta, orientado para estabelecer um padrão comum para a inferência de modelos de linguagem em múltiplos ambientes. Através desta comunidade, a Red Hat procura replicar o modelo que outrora tornou o Linux no núcleo operacional das infraestruturas de TI globais.

Entre os seus impulsionadores estão tanto fabricantes de aceleradores de IA, como AMD ou Intel, como fornecedores de infraestrutura em cloud e plataformas de modelos, como Hugging Face ou Mistral AI. A participação dos laboratórios académicos responsáveis pelo vLLM (Sky Computing Lab) e pelo LMCache (Universidade de Chicago) reforça a componente científica do projeto, incorporando avanços de ponta em otimização de memória e desempenho.

A Red Hat reiterou a sua intenção de continuar a promover um ecossistema onde qualquer organização possa implementar qualquer modelo de IA, em qualquer acelerador e em qualquer nuvem, sem depender de soluções proprietárias ou infraestruturas específicas. Esta abordagem visa maximizar a interoperabilidade e facilitar a adoção da IA generativa em diversos setores.

Com a criação do llm-d, a Red Hat posiciona-se para liderar o desenvolvimento de um padrão aberto para inferência distribuída, potencializando o uso do vLLM como tecnologia base. A iniciativa reforça a sua estratégia em torno da cloud híbrida, buscando que os ambientes empresariais possam integrar a IA generativa de forma nativa, sem ruturas tecnológicas ou restrições de infraestrutura.

Neste contexto, a inferência torna-se o novo núcleo operacional da inteligência artificial aplicada. Projetos como o llm-d não apenas respondem à crescente demanda por escalabilidade e eficiência, mas também buscam criar uma plataforma técnica que permita às empresas inovar de forma sustentável em IA, sem se expor a custos proibitivos ou gargalos tecnológicos.