Mustafa Suleiman vem se preparando há muito tempo para sua nova descrição de cargo. Suleiman foi o primeiro CEO de IA da Microsoft, mas assumiu algumas das responsabilidades depois que a empresa passou por uma grande reestruturação em meados de março e mudou seu foco para a busca pela superinteligência. Embora a notícia só tenha sido anunciada no mês passado, ele diz: A beiraele estava se preparando para a transição há nove meses. E embora a renegociação do contrato OpenAI da Microsoft tenha oficialmente “desbloqueado a capacidade[da Microsoft]de buscar superinteligência”, ele tinha planos em vigor desde antes de a tinta secar.
“Este tem sido um plano de longa data”, disse ele, acrescentando que alcançar a superinteligência “era puramente meu foco”.
A superinteligência, assim como a AGI (inteligência artificial geral), tem uma definição vaga e mutável na indústria de IA. Para Suleiman, trata-se estritamente de negócios e produtividade. “A superinteligência é realmente uma questão de ‘Esses modelos podem agregar valor de produção aos milhões de empresas que dependem de nós para fornecer modelos de linguagem de classe mundial?'”, Diz Suleiman. “Esse é o nosso verdadeiro foco. Queremos atender desenvolvedores, empresas e um grande número de consumidores.” As empresas de IA enfrentam uma pressão crescente para aumentar as receitas, e os planos da Microsoft também se refletem na nova estratégia da OpenAI.
A reorganização da Microsoft combinou suas equipes empresariais e de consumo sob a bandeira Copilot AI. Enquanto Suleiman continua a se concentrar na estratégia geral, Jacob Andreou, anteriormente vice-presidente corporativo de produto e crescimento da Microsoft AI, foi nomeado vice-presidente executivo. assumir a liderança Os esforços de engenharia, crescimento, produto e design de nossa equipe recém-formada. Esta mudança deixa Suleiman livre para dedicar o seu tempo à procura da superinteligência e ao desenvolvimento dos novos modelos de IA de vanguarda da Microsoft, numa altura em que a concorrência entre as grandes empresas de IA e a pressão para atrair novos consumidores pagantes e clientes empresariais são mais intensas do que nunca.
Na quinta-feira, a Microsoft anunciou um novo modelo de transcrição que faz exatamente isso. De acordo com Suleyman, isso representa “metade do custo da GPU de outros modelos de ponta”, portanto é uma “economia de custos significativa” para a Microsoft.
A empresa considera o MAI-Transcribe-1 “pioneiro nas fronteiras do reconhecimento de fala”, com a capacidade de transcrever reuniões em 25 idiomas, legendar vídeos e analisar interações em call centers. De acordo com uma postagem no blog da Microsoft anunciando o modelo, o modelo foi construído para condições de gravação “desafiadoras”, como ruído de fundo, áudio de baixa qualidade e áudio sobreposto, e foi treinado em uma combinação de transcrições “curadas por humanos” e transcritas por máquina. Suleiman disse que as gravações originais eram uma combinação de dados de cabines de som controladas e empreiteiros encarregados de gravar a si mesmos no ruído ambiente, desde ruas movimentadas até crianças correndo, bem como “uma enorme quantidade de dados da web aberta”.
Além dos modelos existentes de geração de fala e imagem MAI-Voice-1 e MAI-Image-2, um novo modelo de transcrição está agora disponível como parte do Microsoft Foundry e do novo Microsoft AI Playground. A Microsoft diz que esta é a primeira vez que esses modelos estarão “amplamente disponíveis comercialmente”. MAI-Transscribe-1 pode processar arquivos de áudio nos formatos MP3, WAV e FLAC.
Suleiman credita o desempenho do novo modelo nos testes a uma equipe pequena e focada de 10 pessoas. Ele diz que a equipe de modelagem está “livre de burocracia” porque se cerca de equipes responsáveis por coisas como gerenciar fornecedores e encontrar dados para download. A Microsoft adotou uma estratégia semelhante para geração de áudio e imagem, e outras empresas como Meta, Amazon e Google tomaram medidas semelhantes. Em experiência A Anthropic disse que também está experimentando dar a pequenas equipes de desenvolvedores um certo nível de liberdade computacional para experimentar e ver o que podem realizar.
O novo modelo de transcrição faz parte do objetivo de Suleyman de fornecer IA “centrada no ser humano” (uma variação da palavra-chave de IA favorita da Microsoft, “superinteligência humanista”) que seja útil para as pessoas comuns. “Todos terão no bolso um assistente de IA que seja verdadeiramente de classe mundial, responsável perante eles, alinhado com seus interesses e trabalhando em seu nome”, disse ele.


