Gavin McNamara abandonou o teclado e passa o dia todo conversando em vez de digitar.
Ele fala por horas em seu computador e telefone, enviando e-mails, escrevendo apresentações, postando no LinkedIn e até codificando conversas usando o aplicativo de ditado de IA da startup Wispr Flow, de São Francisco.
A IA pontua, formata e adapta suas divagações em uma cópia coerente. McNamara teve uma média de 125 palavras por minuto, o dobro da velocidade média de digitação.
“Neste momento, tudo o que posso fazer digitando, faço falando”, diz o fundador da agência de software Why Not Us, de 32 anos. “Eu estava apenas conversando.”
Em 77 aplicativos, ele ditou quase 300 mil palavras nos últimos cinco meses – o equivalente a escrever três romances.
Os gigantes da tecnologia e as startups da Califórnia estão na vanguarda de um movimento que utiliza a IA e os enormes modelos de linguagem em que se baseiam para encorajar as pessoas a interagir com a tecnologia usando a voz, e não os dedos.
“AI e LLMs mudaram a dinâmica”, disse CJ Pais, criador do aplicativo gratuito de ditado de voz para texto Handy, baseado em San Diego. “Usar a voz é muito mais rápido do que digitar.”
Uma mistura de desenvolvedores independentes e startups, incluindo Handy, Wispr Flow de San Fransico, Willow e outros, estão surgindo para oferecer interações de voz precisas com inteligência artificial.
Grandes nomes da tecnologia também estão criando novas formas de a sociedade fazer parceria com a IA. Os óculos inteligentes mais recentes da Meta dependem do som. OpenAI e Meta criaram personalidades diferentes para seus chats de voz de bot. Até mesmo a Alexa, da Amazon, e a Siri, da Apple, estão passando por atualizações de IA, que as empresas esperam que tornem todos mais comunicativos com sua tecnologia.
Este método gratuito e pago de usar palavras faladas em computadores atraiu milhões de usuários, incluindo programadores, assistentes executivos, advogados, criadores de conteúdo e médicos. Alguns otimistas argumentam que os teclados podem se tornar obsoletos.
“Estou emocionado em anunciar que removemos os teclados dos prêmios de televisão mais prestigiados do mundo”, disse Allan Guo, fundador da Willow, em um post no LinkedInobservou que a equipe do Emmy Awards está usando o ditado de voz Willow para enviar mensagens do Slack e limpar as caixas de entrada com mais rapidez, em preparação para a premiação de 2026.
Durante anos, grandes empresas de tecnologia têm feito isso adaptado muitos de seus produtos priorizam a voz – por conveniência. Há uma mudança da voz como um recurso de acessibilidade para uma ferramenta de produtividade.
Até o final de 2022, os criadores do ChatGPT começou a fornecer acesso ilimitado a um modelo de reconhecimento automático de fala chamado Whisper, que foi treinado em 680.000 horas de dados multilíngues. OpenAI compartilha tecnologia para transcrição precisa de áudio, que já foi um grande segredo tecnológico bem guardado. Qualquer pessoa agora pode baixar e executar transcrição de IA de alta qualidade gratuitamente em seu laptop.
A nova onda de aplicativos de ditado de IA usa o Whisper como base e se baseia nele para oferecer ditado ao vivo. Embora existam alternativas gratuitas, as assinaturas pagas custam entre US$ 8 e US$ 12 por mês.
O ditado baseado em IA está se tornando cada vez mais popular entre programadores e usuários casuais – e está fazendo as pessoas falarem usando seus laptops. Seja escrevendo e-mails, enviando SMS, projetando sites ou atribuindo tarefas à IA, os primeiros usuários dizem que o ditado lhes permite trabalhar mais rápido, pensar com mais clareza e ser mais produtivo.
“As pessoas que realmente adotam a voz não voltam. Quando você fala 20 horas por semana na frente de um laptop, digitar parece um atrito”, disse Naveen Naidu, gerente geral do aplicativo de ditado de voz Monologue, com sede em Nova York. “Acho que o objetivo é: os votos se transformam em camadas de delegação. Você expressa suas intenções e as coisas acontecem.”
Este novo aplicativo de ditado de IA aproveita as vantagens da Apple chips avançados no iPhone e Mac para realizar ditado privado no dispositivo.
Geoffrey Huntley, um desenvolvedor de software independente, fez a transição quase completa para o trabalho em junho.
Muitas vezes, ele inicia um projeto abrindo um comando de voz e pedindo à IA que o entreviste sobre suas preocupações e requisitos do projeto antes de qualquer código ser criado.
“Conversei com ele, como se estivesse tocando um riff em uma banda de jazz, de trás para frente, de trás para frente, de trás para frente”, disse Huntley. Essa dança vocal ajuda a ajustar as especificações, então a IA assume o controle, e construir software.
Além da codificação, Huntley usa a voz para “deixar fluir” ao capturar ideias para postagens de blog ou mensagens, usando aplicativos semelhantes super sussurro ou Whisper Flow para obter um “primeiro despejo” de pensamentos antes de passar para o teclado para a edição final.
Cada vez mais desenvolvedores de software no Vale do Silício estão ditando instruções de codificação por horas, em vez de digitar. Uma combinação de agentes de IA em rápida evolução que podem codificar Horascom a entrada de voz capturando pensamentos mais rapidamente do que a digitação, aumentou sua produtividade.
Autodenominado “codificador de vibração”, McNamara construiu mais de 25 aplicações web em poucos meses, uma velocidade de desenvolvimento que não teria sido possível sem instruções de voz.
“Não creio que (digitar), de forma alguma, seja eficiente ou eficaz para chegar a algum lugar tão rapidamente quanto falo”, disse McNamara.
Ele usou conversas sinuosas e várias horas para construir a IA Presentes de brotolista de presentes para crianças e pedidos de avalie qualquer item através de fotos.
É certo que a IA pode cometer erros e o seu trabalho precisa de ser verificado.
Enquanto isso, a adoção generalizada trouxe novos inconvenientes, fazendo com que até mesmo os usuários avançados se sintam desconfortáveis ao falar com seus laptops. Escritórios abertos e movimentados não foram projetados para permitir que muitas pessoas conversem em seus computadores ao mesmo tempo.
“Adoro o som, mas não em um ambiente de escritório”, disse um usuário no X. “Não gosto de conversar com as pessoas. Faço isso em um escritório fechado ou vou trabalhar no meu carro.”
McNamara estava usando fones de ouvido, então as pessoas presumiram que ele estava ao telefone.
“É como o hacking social que experimentei”, disse ele.
Embora seja muito cedo para determinar se os teclados Qwerty seguirão os passos das fitas adesivas e dos aparelhos de fax até a obsolescência, o ritmo em direção à voz está se acelerando, disse Dylan Fox, fundador da Assembly AI, com sede em São Francisco, que oferece modelos de áudio para empresas.
“Estamos realmente no início do que imaginamos como um aumento de 10 a 100 vezes na demanda por voz, aplicações e interfaces de IA”, disse ele.
Para o programador McNamara, conversar mais com chatbots os torna melhores amigos.
Ele costumava ser ruim em responder mensagens de texto. Agora ele voltou imediatamente para seus amigos.
“Eu respondi rapidamente, eles disseram ‘Quem é esse cara?’”, Disse ele.



