No início deste mês, a OpenAI introduziu um novo espaço focado na segurança no ChatGPT, usando-o como uma forma mais segura para os usuários fazerem perguntas sobre tópicos delicados, como dados médicos, doenças e condicionamento físico. Uma das manchetes notáveis no lançamento foi a capacidade médica do ChatGPT de analisar dados de aplicativos como Apple Health, MyFitnessPal e Peloton para revelar tendências de longo prazo e resultados pessoais gratuitos. No entanto, um novo relatório da OpenAI sugere que pode ser exagerado a eficácia do recurso na extração de insights específicos desses dados.
De acordo com os primeiros testes deles Washington PostGeoffrey A. Fowler, quando o ChatGPT Health teve acesso a dados de uma década de Apple Health, o chatbot do repórter de saúde cardíaca foi classificado como F. No entanto, após revisar a avaliação, o cardiologista a chamou de “inútil” e disse que o risco de doença cardíaca do próprio repórter é muito baixo.
Eric Topol, do Scripps Research Institute, fez uma avaliação contundente das capacidades do ChatGPT Health, dizendo que a ferramenta não está pronta para oferecer aconselhamento médico e é muito onerosa em seus esforços para medir técnicas duvidosas. As classificações do ChatGPT são fortemente baseadas nas estimativas do Apple Watch de VO2 máximo e variabilidade da frequência cardíaca, que têm limitações conhecidas e podem variar significativamente entre dispositivos e versões de software. Uma pesquisa independente descobriu que o Apple Watch frequentemente subestima os valores de VO2, mas o ChatGPT ainda os trata como indicadores abertos de problemas de saúde.
ChatGPT possui diferentes níveis de segurança para os mesmos dados
Os problemas não pararam por aí. Quando o repórter pediu ao Health ChatGPT para conseguir repetir o mesmo passo a passo, a pontuação oscilou entre as entrevistas F e B, já que o chatbot às vezes ignora os relatórios de exames de sangue fresco aos quais tem acesso e às vezes esquece detalhes específicos, como idade e sexo do repórter. Claudius anthropici da Curis, que também recuou no início deste mês, mostra consistência semelhante, atribuindo notas que variam entre C e B menos.
Tanto a OpenAI quanto a Anthropic publicaram suas ferramentas e não pretendem substituir profissionais e apenas fornecer contexto geral. No entanto, ambos os chatbots fornecem avaliações de saúde cardiovascular altamente personalizadas de forma confiável. Essa combinação de autoridade e inconsistência poderia assustar usuários sensatos ou enlouquecer os falsos curandeiros. Embora a IA possa eventualmente desbloquear informações valiosas a partir de dados de saúde a longo prazo, as primeiras evidências sugerem que a introdução de anos de dados de investigação relevantes nestas ferramentas está atualmente a criar mais confusão do que clareza.



