教授 Ethan Mollick, da Wharton School da Universidade da Pensilvânia, publicou a 25/4 na plataforma X uma observação com um impacto forte na comunidade académica: os actuais agentes de IA já conseguem, sem as publicações originais e sem o código original, reproduzir de forma independente resultados complexos de investigação académica apenas com descrições de métodos e dados disponibilizados publicamente. Mollick acrescentou ainda que, quando as versões reproduzidas por IA divergem do artigo original, “os erros costumam estar no próprio texto humano, e não na IA”. Este é um ponto de viragem real para a crise de reprodutibilidade da investigação no tempo da IA generativa — a validação por pares que no passado exigia mão de obra cara está a ser concluída em larga escala e com custos baixos por IA.
Claude reproduz múltiplos artigos e, depois, verifica duas vezes com o GPT-5 Pro
Num post do seu blogue OneUsefulThing e nesta publicação, Mollick descreve os seus testes concretos ao Claude: pegar num artigo académico e entregá-lo ao Claude, para que este abra o arquivo, organize os ficheiros, converta automaticamente o código STATA usado para as estatísticas para Python e, em seguida, execute uma a uma todas as conclusões do artigo. Depois de o Claude concluir, ele faz uma segunda ronda de verificação com o GPT-5 Pro para os mesmos resultados de reprodução. Foram testados vários artigos do mesmo modo; os resultados foram, em geral, bem-sucedidos, sendo apenas bloqueados quando os ficheiros de dados são demasiado grandes ou quando há problemas no próprio replication data original.
Para a comunidade académica, este processo normalmente exigia, no passado, que assistentes de investigação gastassem semanas ou até meses. A escala de tempo descrita por Mollick é de uma tarde a um dia, e o custo de execução é apenas o custo de tokens da API LLM comercial.
Há mais erros no texto humano original do que na IA
Ainda mais controversa é a avaliação de Mollick sobre “quem errou”. No seu post, ele afirma explicitamente que, quando os resultados reproduzidos por IA não correspondem aos do artigo original, na maioria das vezes não é a IA que se engana, mas sim que o artigo original tem erros no tratamento de dados, houve uso incorrecto do modelo ou as conclusões vão além do âmbito que os dados suportam. Na psicologia, na economia comportamental, na gestão e noutras ciências sociais, têm surgido várias vezes, ao longo dos últimos dez anos, acontecimentos importantes de crise de reprodutibilidade; o mais conhecido é o grande estudo de reprodução de 2015 da Open Science Collaboration, em que apenas cerca de 36% dos resultados de artigos de psicologia puderam ser reproduzidos de forma independente. O agente de IA empurra este processo de validação para lá do limite de “necessitar de alocação de recursos humanos” e torna-o “executável de forma generalizada”.
Aprender ainda proíbe a IA de entrar na revisão por pares; a instituição está atrasada face à tecnologia
Noutro post de 4/25, Mollick apontou de forma concreta que a maior associação da sua área, a Academy of Management, ainda proíbe explicitamente a IA de entrar no processo de revisão por pares de artigos. Ele cita estudos existentes que indicam que a revisão por IA já é superior, no controlo de precisão, consistência e enviesamento, a alguns revisores humanos tradicionais; por isso, a posição de “proibir” pode, na prática, agravar de forma inversa a falha dos sistemas de revisão existentes. A distância entre esta instituição e a tecnologia — é uma questão de políticas públicas que as áreas da publicação académica, as associações e as entidades financiadoras terão de enfrentar nos próximos 1–2 anos.
Para os leitores, este debate não se limita ao meio académico. Quando um agente de IA consegue validar os resultados de investigação em tempo real, as citações da indústria, os relatórios de políticas públicas e os fundamentos académicos em decisões financeiras entrarão num novo patamar de verificação: “as conclusões suportam ou não uma reprodução independente por IA”. Em complemento a outro post de Mollick, ele considera que o governo é a única entidade capaz de fixar o “marco” para este processo de verificação quando a intensidade das ferramentas continua a aumentar — e que a complexidade do desenho das políticas públicas se tornará, em paralelo, um eixo relativamente ignorado nas discussões sobre governação de IA.
Este artigo: o Agente de IA já consegue reproduzir autonomamente artigos académicos complexos — Mollick afirma que os erros estão mais no texto humano original do que na IA, e foi publicado pela primeira vez em Cadeia Notícias ABMedia.
Related Articles
OpenAI recruta principais talentos de software empresarial à medida que agentes de fronteira perturbam a indústria
Worxphere Rebrands JobKorea With AI-Powered Hiring Tools
Os EAU Anunciam uma Mudança Para um Modelo de Governo Baseado em IA nos Próximos Dois Anos
Plataforma de Negociação com IA Fere AI Angaria $1,3M em Financiamento Liderado pela Ethereal Ventures
Nvidia Implementa o Agente de IA Codex da OpenAI em Toda a Força de Trabalho na Infraestrutura Blackwell
Startup de Programação com IA Cognition em Conversas para uma Rodada de Financiamento com Avaliação $25B Valuation