O Google publicou uma postagem em um blog de pesquisa na terça-feira sobre um novo algoritmo de compressão para modelos de IA. Em poucas horas a coragem estava desaparecendo da memória. A Micron perdeu 3%, a Western Digital perdeu 4,7% e a SanDisk caiu 5,7%, à medida que os investidores consideravam o quanto a indústria de memória física poderia precisar de IA.
O algoritmo é chamado TurboQuant e aborda um dos gargalos mais caros na execução de grandes modelos de linguagem: a célula de valor-chave, um conjunto de dados de alta velocidade que contém informações de contexto, não possui o modelo para recalculá-lo a cada novo sinal que gera. À medida que os modelos processam entradas mais longas, o cache cresce rapidamente, consumindo memória da GPU que poderia ser usada para atender mais usuários ou executar modelos maiores. O TurboQuant compacta a célula para apenas 3 bits por valor, abaixo do padrão 16, seu consumo de memória em pelo menos seis vezes sem, segundo o Google, qualquer perda mensurável de precisão.
O artigo, que será apresentado no ICLR 2026, é de autoria de Amir Zandieh, cientista pesquisador do Google, e Vahab Mirrokni, presidente e parceiro do Google, juntamente com colaboradores do Google DeepMind, KAIST e da Universidade de Nova York. Baseia-se em dois artigos anteriores do mesmo grupo: QJL, publicado na AAAI 2025, e PolarQuant, que aparecerá na AISTATS 2026.
Como funciona
A principal inovação do TurboQuant elimina a sobrecarga que torna mais técnicas de compressão menos eficientes do que sugerem os números principais. Os métodos de entrega quantitativa reduzem o tamanho dos vetores de dados, mas devem armazenar constantes adicionais, valores ordinais, que o sistema precisa para baixar os dados com precisão. Essas constantes geralmente adicionam uma ou duas partículas extras ao número, liberando parcialmente a compressão.
O TurboQuant evita isso através de dois processos. O primeiro estágio, denominado PolarQuant, converte vetores de coordenadas cartesianas padrão em coordenadas polares, separando cada vetor em magnitude e um conjunto de ângulos. Como as distribuições angulares podem prever e seguir padrões compactos, o caro sistema por bloco pode ser totalmente contornado. O segundo estágio aplica QJL, técnica baseada na transformação de Johnson-Lindestrauss, que reduz o pequeno erro residual do primeiro estágio para um sinal por dimensão. O resultado combinado é uma representação que aproveita ao máximo sua compressão orçamentária no sentido de capturar o resíduo econômico original e o mínimo da correção de erros, sem despesas gerais gastas nas constantes da organização.
O Google testou o TurboQuant em cinco benchmarks padrão em modelos de linguagem de contexto longo, incluindo LongBench, Needle in the Haystack e ZeroSCROLLS, usando modelos de código aberto das famílias Gemma, Mistral e Llama. Aos 3 minutos, o TurboQuant combinou ou informou o KIVI, a linha de base padrão atual para medições-chave quantitativas, que foi publicada no ICML 2024. Em relação à recuperação de uma agulha em um palheiro, que testará se o modelo consegue localizar uma informação enterrada em um local longo, o TurboQuant obteve um resultado perfeito com a compressão da célula por um fator de seis. O algoritmo com precisão de 4 bits forneceu oito vezes a velocidade computacional nas GPUs Nvidia H100 em comparação com a linha de base de 32 bits.
O que eles ouviram no mercado?
A reação das ações foi rápida e, na opinião de muitos analistas, desproporcional. O analista do Wells Fargo, Andrew Rocha, observou que o TurboQuant visa diretamente a curva de custo para armazenamento em sistemas de IA. Se for adotado de forma mais ampla, disse ele, rapidamente levantará a questão de quanta capacidade de armazenamento a indústria precisa. Mas Rocha e outros também alertaram que o quadro da procura por memória de IA permanece firme e que a pressão dos algoritmos existe há anos sem alterar fundamentalmente a gestão dos volumes.
Contudo, a preocupação não é em vão. Os gastos com infraestruturas de IA estão a crescer a taxas extraordinárias, com a Meta sozinha a comprometer até 27 mil milhões de dólares num acordo recente com a Nebio para capacidade de computação dedicada, e a Google, a Microsoft e a Amazon a gastarem coletivamente milhares de milhões de capital em centros de dados até 2026. A única tecnologia que reduz seis vezes os requisitos de memória não reduz os gastos seis vezes, porque a memória é apenas uma parte do custo de um centro de dados. Mas a proporção muda e, com a energia consumida nesta escala, até a eficiência marginal é rapidamente agravada.
A questão da eficiência
O TurboQuant chega num momento em que a indústria de IA está sendo forçada a enfrentar as implicações financeiras. O custo de configuração do modelo é único, por maior que seja. Executar e atender milhões de consultas por dia com latência e precisão aceitáveis é o dinheiro mais comum que determina se os produtos de IA são financeiramente capazes. O cache é de valor central para este cálculo: é o gargalo que limita quantos usuários simultâneos uma única GPU pode servir e quanto tempo uma janela de contexto o modelo pode suportar aproximadamente.
Tecnologias de compressão como o TurboQuant fazem parte de um esforço mais amplo para tornar o sequenciamento mais barato, juntamente com melhorias de hardware como a arquitetura True Rubin da Nvidia e as TPUs de hardware do próprio Google. A questão é se esta margem de lucro reduzirá a quantidade de energia que a indústria compra, ou se simplesmente fornecerá serviços mais ambiciosos aproximadamente ao mesmo preço. A história da computação sugere o seguinte: quando o armazenamento fica mais barato, as pessoas armazenam mais; mas quando cresce, as drogas o consomem.
Para o Google, o TurboQuant também tem aplicação comercial direta além dos modelos de linguagem. A postagem do blog observa que o algoritmo é um vetor de pesquisa aprimorado, uma técnica que procura possíveis semelhanças semânticas entre bilhões de itens. O Google testou os métodos do conjunto de dados GloVe Benchmark e descobriu que os métodos alcançaram melhor recuperação sem exigir grandes conjuntos de dados ou os requisitos específicos do conjunto de dados que as abordagens concorrentes exigem. Isso é importante porque a pesquisa vetorial submete tudo, desde a Pesquisa Google até as recomendações do YouTube e a segmentação de publicidade, ou seja, sujeita o Google à receita.
A contribuição do artigo é verdadeira: um método de treinamento sem pressão que alcança melhores resultados do que o estado da arte existente, com fortes fundamentos teóricos e implementação prática na produção de hardware. Se a IA irá remodelar a infra-estrutura financeira ou simplesmente tornar-se uma das melhorias que irão satisfazer o apetite insaciável da indústria pela computação é uma questão que o mercado responderá em meses, não em horas.




