Los estudios revelan que casi la mitad de las recomendaciones médicas proporcionadas por IA tienen problemas, Grok es el peor, y OpenAI sigue expandiendo sus ambiciones en el campo de la medicina.

robot
Generación de resúmenes en curso

Según un estudio publicado recientemente en BMJ Open, aproximadamente el 50% de las respuestas de los cinco principales chatbots de IA en la atención médica presentan problemas, de las cuales cerca del 20% son consideradas “altamente problemáticas”. Bloomberg señala que esta investigación revela riesgos sistémicos en las aplicaciones médicas de la IA, especialmente en un momento en que OpenAI y Anthropic expanden simultáneamente su presencia en el sector sanitario, lo cual resulta especialmente irónico.
(Resumen previo: ¿No entregues tu historial médico a los chatbots? La apuesta por la privacidad en la ambición médica de ChatGPT)
(Información adicional: Estudio de la Universidad de California sobre el fenómeno de “niebla cerebral” en IA: el 14% de los empleados se vuelven locos por agentes y automatización, con una intención de dejar el trabajo del 40%)

Índice de este artículo

Alternar

  • Grok tiene el peor rendimiento, ChatGPT no se queda atrás
  • Cuanto más confiable dice la IA, mayor es el riesgo
  • OpenAI y Anthropic: investigación frena, negocios aceleran
  • Confía en la IA, pero con condiciones

Más de 230 millones de personas preguntan semanalmente a ChatGPT sobre salud y medicina, pero casi la mitad de las respuestas pueden tener problemas. Según un estudio publicado esta semana en la revista médica BMJ Open, investigadores de EE. UU., Canadá y Reino Unido realizaron una evaluación sistemática de cinco plataformas: ChatGPT, Gemini, Meta AI, Grok y DeepSeek, planteando cinco preguntas en diferentes categorías médicas, un total de 10 preguntas por plataforma.

Los resultados no son tan optimistas: aproximadamente el 50% de las respuestas se consideran problemáticas, y cerca del 20% son calificadas como “altamente problemáticas”.

Grok tiene el peor rendimiento, ChatGPT no se queda atrás

Bloomberg informa que hay grandes diferencias en el rendimiento de cada plataforma, pero ninguna pasa la prueba. Según la tasa de respuestas a las preguntas, Grok lidera con un 58%, siendo la plataforma con peor desempeño; ChatGPT le sigue con un 52%; y Meta AI con un 50%.

Los investigadores observaron que en preguntas cerradas y temas relacionados con vacunas y cáncer, los chatbots funcionan relativamente bien; sin embargo, en preguntas abiertas y en áreas como células madre y nutrición, su rendimiento disminuye notablemente. Además, en el estudio solo hubo dos casos de rechazo a responder, ambos de Meta AI (en cierto modo, saber que no deberían responderse se convirtió en una especie de ventaja poco común).

Lo que es aún más preocupante es que estas respuestas de IA suelen estar llenas de confianza, con un tono afirmativo y sin reservas. Los investigadores enfatizan que ningún chatbot puede proporcionar una lista completa y precisa de referencias en respuesta a cualquier pregunta. Esto significa que, aunque la IA parezca “bien fundamentada”, las fuentes citadas a menudo no se pueden verificar o incluso no existen.

Cuanto más confiable dice la IA, mayor es el riesgo

Los investigadores escriben en el artículo que estos sistemas pueden generar respuestas que “suenan como autoritativas, pero en realidad pueden tener defectos”, resaltando las “limitaciones importantes en su comportamiento” en la comunicación pública sobre salud y medicina, así como la “necesidad de reevaluar la forma en que se despliegan”.

Bloomberg también cita advertencias del equipo de investigación: sin una educación pública adecuada y mecanismos regulatorios, la mayor amenaza de la implementación masiva de chatbots es la propagación y difusión de información médica errónea.

En contraste, otro estudio en JAMA indica que la tasa de fallos de IA en diagnósticos preliminares supera el 80%; además, la Universidad de Oxford advirtió en febrero de 2026 sobre los riesgos sistémicos de los chatbots en la provisión de recomendaciones médicas.

OpenAI y Anthropic: investigación frena, negocios aceleran

El momento en que se publicó este estudio es bastante dramático. Solo unos meses antes, en enero de 2026, OpenAI lanzó con bombo y platillo ChatGPT Health, una función que permite a los usuarios conectarse con registros electrónicos, dispositivos portátiles y aplicaciones de salud, además de ofrecer herramientas profesionales para médicos. OpenAI afirmó que 40 millones de personas consultan información de salud a través de ChatGPT diariamente.

Casi al mismo tiempo, Anthropic anunció el lanzamiento de Claude for Healthcare, que, con certificación HIPAA, ingresó oficialmente al mercado médico.

Estas plataformas no tienen licencias médicas ni capacidades de juicio clínico, pero se están expandiendo rápidamente en el sector sanitario. La tensión entre los resultados de la investigación y la expansión comercial revela un vacío regulatorio: actualmente no existe una línea clara que proteja la seguridad clínica frente a la promoción del mercado de herramientas médicas de IA.

Confía en la IA, pero con condiciones

No es la primera vez que se señala el uso de IA en medicina, pero cada estudio concluye lo mismo: los chatbots son modelos de lenguaje que “son buenos para decir cosas que parecen correctas”, pero no garantizan la precisión. El problema es que, cuando los usuarios buscan ayuda con preocupaciones reales de salud, la apariencia de certeza puede influir en sus decisiones.

A medida que empresas como OpenAI y Anthropic profundizan en escenarios médicos, la velocidad de regulación y educación pública claramente no puede seguir el ritmo de la expansión tecnológica. Antes de establecer barreras claras, este estudio puede recordarnos que la IA puede ser una puerta de entrada a información de salud, pero no debe ser el destino final.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado