Início NOTÍCIAS LMArena levanta US$ 150 milhões com avaliação de US$ 1,7 bilhão para...

LMArena levanta US$ 150 milhões com avaliação de US$ 1,7 bilhão para repensar o teste de IA

82
0

A IA tornou-se uma indústria medindo-se a si mesma. Os benchmarks estão melhorando, as pontuações dos modelos estão aumentando e cada novo lançamento com um índice métrico é projetado para alcançar um progresso significativo. mas em algum lugar entre o laboratório e a vida real algo escapa.

Esse modelo na verdade sentimentos melhor uso?
O que responde à confiança humana?
Qual sistema você deseja apresentar ao desenvolvedor, desenvolvedor ou cidadão, e você se sente confortável em apoiá-lo?

Foi nesse espaço que a LMArena construiu silenciosamente o seu negócio e porque é que os investidores pensam assim? US$ 150 milhões por trás disso, com uma avaliação de US$ 1,7 bilhãona rodada da série A. Eles foram os principais investidores Felicis e Investimentos UCcom a participação de grandes capitais de risco (Andreessen Horowitz, Kleiner Perkins, Lightspeed, Fund House, Laude Ventures).

Ninguém mais quer o fermento

Durante anos, os benchmarks foram a moeda da credibilidade da IA: pontuações precisas, testes de raciocínio e notas tornaram-se a norma. Infelizmente eles não o fizeram. À medida que os modelos se tornaram maiores e mais semelhantes, a melhoria do benchmark tornou-se marginal. Pior ainda, os modelos começaram a otimizar para os próprios testes, em vez de para casos de uso reais. As avaliações estáticas pretendem refletir como a IA se comporta na mensagem aberta de intervenção humana.

Ao mesmo tempo, os sistemas de IA saíram dos laboratórios e passaram para o trabalho diário: escrever e-mails, escrever códigos, apoiar funcionários, ajudar na pesquisa e aconselhar profissionais. A pergunta mudou de “Você pode modelar isso?” para “Esperamos que ele faça isso?”

Esse é um tipo diferente de problema de medição.

A resposta da LMArena foi simples e radical: parar de pontuar modelos isoladamente. Em sua plataforma, os usuários enviam e recebem solicitações Eu respondo dois anonimamente. sem marcação. Sem nomes de modelos. Apenas as respostas. Eu escolho um melhor e depois o desenvolvedor.

Um desejo. Uma comparação. Um milhão repetido sete vezes.

O resultado definitivo não é “o melhor”, mas sim um um símbolo vivo da preferência humana como os homens respondem com som, clareza, verbosidade e a utilidade das coisas humanas. Quando o prompt não está pronto ou previsível, esse sinal é alterado. E é preciso algo que os benchmarks muitas vezes falham.

Preferência verdadeira, não apenas retidão

A LMArena não está preocupada se o modelo está teoricamente produzindo a resposta correta. Se as pessoas preferem quando funciona. Essa distinção é sutil, mas significativa na prática. Não há tabela de classificação na Arena, agora relatórios dos corantes e laboratórios antes que as soluções e decisões sejam produzidas. Os principais modelos são avaliados regularmente pela OpenAI, Google e Anthropic.

Sem o marketing tradicional, a LMArena tornou-se um espelho da indústria relojoeira.

Por que os investidores estão prestando atenção agora?

A rodada de US$ 150 milhões não foi produto do voto de confiança na LMArena. Ele acenou com a cabeça para isso A própria IA se torna a infraestrutura de avaliação. À medida que o número de modelos aumenta, os clientes empresariais enfrentam uma nova questão: não como utilizar a IA, mas como confiar na IA. O vendedor afirma que os benchmarks clássicos nem sempre se traduzem no mundo real. Os testes internos são caros e lentos.

O signo neutro, o terceiro, algo que fica entre os construtores do modelo e os usuários, está emergindo como uma camada crítica. É onde mora a LMArena. Em setembro de 2025, eu filmei Avaliações de IAum serviço comercial que pode fornecer acesso a um mecanismo de comparação de crowdsourcing para projetos e laboratórios de produtos. A LMArena afirma que este serviço alcançou uma taxa de execução anual de cerca de US$ 30 milhões meses após o lançamento.

Para os diretores e artistas desse tipo os assuntos humanos têm muito destaque nas âncoras. As revisões de tabelas precisam de evidências que reflitam o uso real e não cenários ideais.

Críticas e competição

A chegada da LMArena gera polêmica. Listas baseadas em votos públicos e notificações frequentes, nas preferências dos usuários ativos, que podem não corresponder às necessidades de domínios profissionais específicos. Em resposta, concorrentes como Escalar o confronto de selos AI eles existem, com o objetivo de oferecer um modelo mais granular e representativo em todos os idiomas, regiões e contextos profissionais.

A investigação académica também observa que a votação baseada em sondagens pode estar sujeita a manipulação se não existirem salvaguardas, e que tais sistemas podem favorecer superficialmente as respostas em detrimento de técnicas correctas se o controlo de qualidade não for rigoroso.

Essas discussões enfatizam que nenhum método de avaliação captura todos os aspectos do comportamento de um modelo; mas também exigem percepções mais ricas e mais humanas, além da referência tradicional.

A confiança não aumenta por conta própria

Existe uma suposição silenciosa na IA de que a confiança surge naturalmente para melhorar os modelos. Um sistema melhor, assim diz o sistema, levará a melhores resultados. Aquela noite de treinamento trata isso como um problema técnico com soluções técnicas.

LMArena desafia essa ideia. A confiança em situações reais é social e contextual. É construído através da experiência, não a pede. É formado por ciclos de feedback que não se enquadram na escala. Ao permitir que os usuários, e não as empresas, tomem decisões, a LMArena introduz atrito onde a indústria muitas vezes prioriza a importância. Isso retarda as coisas o suficiente para apenas perguntar: “Isso é realmente melhor ou apenas mais novo?”

Esta desvantagem é um problema num mercado impulsionado por ciclos constantes de lançamento. Por que até a ascensão da LMArena parece inevitável.

O poder silencioso de marcar pontos

LMArena não promete segurança. Não define bons ou maus exemplos. Não para substituir regulamentação ou responsabilidade. O que ele faz é mais simples e poderoso: registra a pontuação em público. À medida que os sistemas de IA são integrados na tomada de decisões comuns, o acompanhamento do desempenho ao longo do tempo torna-se menos opcional. Alguém precisa apontar regressões, mudanças de contexto e exemplos de usuários.

Nos esportes, árbitros e estatísticos cumprem esse papel. Eles fazem auditorias de mercado e agências de classificação. Ainda estamos encontrando a infraestrutura em IA.

Os investidores da plataforma redonda de fundos LMArena acreditam que esta função marginal não durará muito. Porque quando a IA está em toda parte, as questões mais difíceis não são o que Pode para fazer eles são Quem esperamos quando isso acontece e como sabemos que está certo?

Source link