Gemini 3 é o mais recente modelo de IA do Google
VCG (via Getty Images)
O mais recente chatbot do Google, Gemini 3, fez progressos significativos em uma série de benchmarks projetados para medir o progresso da IA, disse a empresa. Embora essas conquistas possam ser suficientes para acalmar os temores de uma bolha de IA estourando por enquanto, não está claro até que ponto essas pontuações se traduzem em capacidades do mundo real.
Além disso, as persistentes imprecisões e ilusões factuais que caracterizam todos os modelos linguísticos de grande escala não mostram sinais de serem resolvidas e podem ser problemáticas em aplicações onde a fiabilidade é importante.
em uma postagem de blog Ao anunciar o novo modelo, os chefes do Google, Sundar Pichai, Demis Hassabis e Koray Kavukcuoglu, escreveram que o Gemini 3 tem “raciocínio de nível de doutorado”, uma frase que o concorrente OpenAI também usou ao anunciar seu modelo GPT-5. Como prova disso, eles listam pontuações de vários testes concebidos para testar o conhecimento de “nível de pós-graduação”, como o Último Exame da Humanidade, um conjunto de 2.500 questões de nível de pesquisa de matemática, ciências e humanidades. O Gemini 3 obteve 37,5% neste teste, superando o recordista anterior, a versão GPT-5 da OpenAI, com 26,5%.
Tais saltos podem indicar que o modelo se tornou mais capaz em certos aspectos, afirmou. Lucas Rocher No entanto, deve-se ter cautela na forma como esses resultados são interpretados. “Se um modelo vai de 80% para 90% em um benchmark, o que isso significa? Significa que o modelo tinha 80% de nível de doutorado e agora tem 90% de nível de doutorado? Acho que isso é muito difícil de entender”, dizem eles. “Não é possível quantificar se um modelo de IA tem inferência ou não, pois este é um conceito muito subjetivo.”
Os testes de benchmark têm muitas limitações, como exigir uma resposta única ou respostas de múltipla escolha que não exigem demonstração de que o modelo está funcionando. “É muito fácil usar questões de múltipla escolha para avaliar[o modelo]mas se você for consultar um médico, o médico não irá avaliá-lo com questões de múltipla escolha. Se você perguntar a um advogado, o advogado não lhe dará aconselhamento jurídico com respostas de múltipla escolha”, diz Roche. Também existe o risco de que as respostas a tais testes possam ser transformadas nos dados de treinamento do modelo de IA que está sendo testado, levando efetivamente à trapaça.
O verdadeiro teste para saber se o Gemini 3 e os seus modelos de IA de ponta, e o seu desempenho, são suficientes para justificar os biliões de dólares que empresas como a Google e a OpenAI estão a gastar em centros de dados de IA é como as pessoas os utilizam e até que ponto os consideram dignos de confiança, disse Roscher.
O Google afirma que as melhorias do modelo ajudarão os usuários a criar software, organizar e-mails e analisar melhor documentos. A empresa também afirma que melhorará as pesquisas do Google complementando os resultados gerados por IA com gráficos e simulações.
Talvez a verdadeira melhoria, diz ele, seja as pessoas usarem ferramentas de IA para escrever código de forma autônoma, um processo chamado codificação de agente. Adam Mahdi na Universidade de Oxford. “Acho que estamos atingindo os limites superiores do que um chatbot típico pode fazer, e o benefício real do Gemini 3 Pro (a versão padrão do Gemini 3) provavelmente não estará nos chats do dia a dia, mas em fluxos de trabalho mais complexos e potencialmente de agentes”, diz ele.
Aqui estão as reações iniciais online: pessoas para admirar As habilidades de codificação e raciocínio do Gemini são impressionantes, mas como acontece com todo lançamento de novo modelo, também houve postagens destacando falhas em tarefas aparentemente simples, como: traçado desenhado à mão uma seta apontando para outra pessoa, ou um simples raciocínio visual teste.
O Google reconhece nas especificações técnicas do Gemini 3 que o modelo continua a ter alucinações aproximadamente na mesma proporção que outros grandes modelos de IA e às vezes produz imprecisões factuais. Ele diz que a falta de melhorias nesta área é de grande preocupação. Artur de Ávila Garcés Na City St George’s, Universidade de Londres. “O problema é que todas as empresas de IA têm tentado reduzir as alucinações há mais de dois anos, mas basta uma alucinação muito má para destruir permanentemente a confiança no sistema”, diz ele.
tópico:



