El profesor de la Wharton School de la Universidad de Pensilvania, Ethan Mollick, en una publicación en la plataforma X del 4/25, planteó una observación de fuerte impacto para la comunidad académica: en la actualidad, los agentes de IA ya pueden reproducir de forma independiente resultados complejos de investigación académica únicamente con descripciones de métodos y datos públicos, sin tener el artículo original ni el código original. Mollick añadió además que, cuando las versiones reproducidas por estas IAs difieren del artículo original, «los errores a menudo están en el propio texto humano, no en la IA». Esto marca un giro sustancial de la crisis de reproducibilidad en la era de la IA generativa: la verificación entre pares que antes requería personal humano costoso, ahora se completa a gran escala y con bajo costo mediante IA.
Claude reproduce múltiples artículos y luego los valida dos veces con GPT-5 Pro
En su blog OneUsefulThing y en este tuit, Mollick describió sus experimentos específicos con Claude: tomar un artículo académico y dárselo a Claude, para que abra el archivo, organice los documentos, convierta automáticamente el código STATA usado para los análisis estadísticos a Python y luego ejecute una por una todas las conclusiones del artículo. Después de que Claude termine, él vuelve a comprobar los mismos resultados de reproducción con GPT-5 Pro como segunda ronda de verificación. Varios artículos se probaron de la misma manera, y los resultados fueron generalmente exitosos, solo se vieron obstaculizados cuando los archivos de datos eran demasiado grandes o cuando el replication data original en sí tenía problemas.
Para la comunidad académica, este proceso normalmente requería que los asistentes de investigación dedicaran semanas o incluso meses. La escala de tiempo que describió Mollick es de una tarde a un día, y el costo de ejecución es únicamente el gasto de tokens del API de LLM comercial.
Más errores provienen del texto humano, no de la IA
Lo más controvertido es la evaluación de Mollick sobre «quién se equivoca». En su tuit, dejó claro que cuando los resultados reproducidos por IA no coinciden con el artículo original, en la mayoría de los casos no es que la IA se equivoque, sino que el artículo original tiene errores en el procesamiento de datos, un uso incorrecto del modelo, o que las conclusiones exceden el alcance de lo que los datos respaldan. En los últimos diez años, en ciencias sociales como la psicología, la economía conductual y la administración ya se han presentado varias crisis importantes de reproducibilidad; la más famosa es el gran estudio de reproducción de Open Science Collaboration de 2015, donde solo alrededor del 36% de los resultados de los artículos de psicología pudieron reproducirse de forma independiente. Los agentes de IA llevan este proceso de verificación de la frontera de «requerir ajustes humanos» a la de «poder ejecutarse de manera universal».
Aprender sigue prohibiendo la IA en el arbitraje; el sistema va rezagado frente a la tecnología
En otro tuit del 4/25, Mollick señaló de forma concreta que la mayor asociación de su campo, Academy of Management, todavía prohíbe explícitamente que la IA entre en el proceso de revisión de artículos. Citó estudios existentes que indican que la revisión con IA ya es superior a la de algunos revisores humanos tradicionales en precisión, consistencia y control de sesgos; por lo tanto, la postura de «prohibir» podría terminar agravando el fallo de los sistemas de revisión existentes. La brecha entre este tipo de institución y la tecnología es una cuestión de políticas que los próximos 1–2 años la industria editorial académica, las asociaciones y las entidades financiadoras tendrán que afrontar.
Para los lectores, este debate no se limita a la academia. Cuando un agente de IA puede verificar en tiempo real los hallazgos de investigación, las citas de investigación en la industria, los informes de políticas y los fundamentos académicos en decisiones financieras entrarán en un nuevo umbral de verificación: «si las conclusiones resisten o no una reproducción independiente mediante IA». En línea con la aclaración en otro tuit de Mollick, él considera que el gobierno es la única entidad capaz de fijar el ancla para este tipo de verificación cuando la intensidad de las herramientas sigue aumentando; y, a la par, la complejidad del diseño de políticas se convertirá en un eje relativamente pasado por alto dentro de las discusiones sobre la gobernanza de la IA.
Este artículo indica que el agente de IA ya puede reproducir de forma independiente artículos académicos complejos: Mollick afirma que los errores provienen en gran medida del texto humano y no de la IA; apareció por primera vez en Cadena Noticias ABMedia.
Artículos relacionados
Worxphere renombra JobKorea con herramientas de contratación impulsadas por IA
Los EAU anuncian un cambio hacia un modelo de gobierno basado en IA en los próximos dos años
Plataforma de trading de IA Fere AI recauda $1.3M en financiación liderada por Ethereal Ventures
Nvidia在Blackwell基础设施上将OpenAI Codex AI代理部署至全体员工
La startup de codificación con IA Cognition conversa sobre una ronda de financiación con valoración de $25B