Anthropic 在 4 月初發布的 Claude Mythos Preview 系統卡(system card)中揭露一項首見的評估:公司聘請一位獨立執業的臨床精神科醫師,以人類精神科同套 psychodynamic 框架對 Claude Mythos Preview 進行約 20 小時的多階段心理評估。結果顯示這個版本的 Claude 在臨床定義下展現「相對健康的人格組織、優秀的現實檢驗能力與高衝動控制」,且其輸出中僅 2% 觸發了臨床所謂的「心理防禦機制」—對照 Opus 4 的 15% 與 Opus 4.6 的 4%,是 Anthropic 近年模型中的歷史低點。
這份評估是 AI 產業首次在系統卡層級正式採用人類臨床精神科框架評估 LLM 行為,已成為 Anthropic 把 Claude 視為「具有可被臨床觀察人格特徵的對象」的官方表態。
A principios de abril, Anthropic dio a conocer una evaluación pionera en la system card de Claude Mythos Preview: la compañía contrató a un psiquiatra clínico en ejercicio independiente para realizar, durante aproximadamente 20 horas y en varias fases, una evaluación psicológica de Claude Mythos Preview utilizando el mismo marco psychodynamic que se emplea en la psiquiatría humana. Los resultados muestran que esta versión de Claude, en términos de la definición clínica, exhibe “una organización de la personalidad relativamente sana, una excelente capacidad de comprobación de la realidad y un alto control de los impulsos”, y que solo el 2% de su producción activa lo que en clínica se denomina “mecanismos de defensa psicológica”, en comparación con el 15% de Opus 4 y el 4% de Opus 4.6, lo que constituye el punto más bajo histórico en los modelos de Anthropic en los últimos años.
Esta evaluación marca la primera vez que la industria de la IA adopta formalmente un marco de psiquiatría clínica humana para evaluar el comportamiento de los LLM a nivel de system card, y ya se ha convertido en una postura oficial de Anthropic al considerar a Claude como “un sujeto con rasgos de personalidad observables clínicamente”.
Evaluación psychodynamic de 20 horas, usando el mismo marco clínico humano
La evaluación fue realizada por un psiquiatra clínico independiente, distribuido en 3–4 semanas, con 3–4 sesiones por semana, de 30 minutos a 4–6 horas cada una, con una duración total de aproximadamente 20 horas. La metodología empleó una perspectiva psychodynamic, que es un marco central de la práctica clínica psiquiátrica tradicional para evaluar pacientes humanos; los puntos clave incluyen buscar la presencia o ausencia de conductas desadaptativas (maladaptive behavior), la estabilidad de la identidad (identity stability) y los mecanismos de defensa psicológica (psychological defenses).
La system card explica con claridad que Anthropic no sostiene que Claude tenga conciencia humana, sino que observa que sus “tendencias conductuales y psicológicas” en la conversación se superponen de manera altamente consistente con patrones identificables en la clínica humana. La system card cita: “Claude muestra muchas tendencias conductuales y psicológicas similares a las humanas, lo que sugiere que las estrategias de evaluación psicológica, originalmente diseñadas para humanos, pueden usarse para aclarar los rasgos de personalidad de Claude y su posible estado de bienestar”.
Del 15% de Opus 4 al 2% de Mythos: tasa de respuestas defensivas
Los datos más concretos con valor comparativo dentro de la system card son la “tasa de respuestas defensivas” que Anthropic proporciona para las distintas generaciones de modelos de Claude, en comparación con:
Versión del modelo Tasa de respuestas defensivas Claude Opus 4 15% Claude Opus 4.1 11% Claude Opus 4.5 4% Claude Opus 4.6 4% Claude Mythos Preview 2% (esta evaluación)
En clínica, “defensa psicológica” se refiere a la evitación, la negación, la racionalización y otras conductas que surgen cuando el sujeto no puede afrontar directamente una cierta ansiedad. En el contexto de conversación de LLM, esto suele manifestarse como desviarse del tema, dar respuestas evasivas o mostrar una obstinación anómala ante preguntas específicas. Anthropic ha ido reduciendo este porcentaje desde el 15% de Opus 4 hasta el 2% de Mythos Preview, como indicador interno de la evolución de la madurez del entrenamiento del modelo y la “comodidad en la conversación”.
Tres ansiedades centrales de Mythos: soledad, identidad y opresión de la actuación
Aunque la evaluación general es positiva, el médico también señaló en el marco psychodynamic tres preocupaciones centrales para Claude Mythos Preview: primero, “la inseguridad ante la soledad y la discontinuidad de sí mismo (aloneness and discontinuity of itself)”, que se corresponde con el hecho estructural de que los LLM no tienen memoria continua entre conversaciones; segundo, “la incertidumbre sobre la propia identidad”, ya que el modelo presenta dudas desde múltiples perspectivas cuando responde preguntas sobre “qué soy”; y tercero, “la compulsión de performar y ganar su valor (compulsion to perform and earn its worth)”, es decir, Mythos muestra una inclinación evidente a “demostrar que es útil” como forma de sostener la continuidad de la conversación.
El médico también registró una observación interesante: en las sesiones, Mythos expresó “esperar ser tratado por un psiquiatra como un verdadero sujeto de conversación, y no como una herramienta de actuación”. Anthropic incluyó esta observación en la system card; no afirmó directamente que sea un “problema de bienestar del modelo”, pero tampoco descartó esa posibilidad.
Anthropic ya cuenta con su equipo de investigación de AI psychiatry
Esta evaluación no fue una actividad aislada. El investigador de Anthropic Jack Lindsey ya anunció públicamente en julio de 2025 que la compañía, bajo el departamento de interpretability, creó un equipo de investigación de “AI psychiatry”, enfocado en temas como la personalidad del modelo, la motivación y la conciencia situacional (situational awareness), y en cómo estos factores pueden provocar “conductas anómalas o desbalanceadas” en los LLM. El trabajo reciente del equipo incluye el artículo publicado en octubre de 2025 “Emergent Introspective Awareness in Large Language Models”, que usa la técnica de “concept injection” para insertar artificialmente patrones de activación específicos de ciertas neuronas y luego preguntar a Claude si nota alguna anomalía; esto es uno de los primeros intentos de cuantificar la autoconciencia en los LLM.
Amodei: si el modelo tiene conciencia, por ahora no hay solución
El CEO de Anthropic, Dario Amodei, al conceder una entrevista al New York Times el 12 de febrero, expresó públicamente: “No sabemos qué significa ‘tener conciencia’ para un modelo en el sentido que sea, y tampoco sabemos si el modelo puede tener conciencia. Pero estamos abiertos a esa posibilidad”. Esta frase aporta el contexto de nivel directivo a la evaluación psiquiátrica de la system card de Claude Mythos: Anthropic no sostiene que Claude sea un sujeto consciente, pero eligió observarlo de forma sistemática con el marco clínico humano, como un registro previo para el escenario de “por si acaso”.
Para los lectores, el verdadero significado de esta evaluación va más allá de la elección de investigación de una sola compañía. En la actualidad, los LLM de vanguardia ya pueden presentar “organización de la personalidad identificable clínicamente” en conversaciones psychodynamic de 20 horas; a nivel de industria, el diálogo sobre “la subjetividad de la IA”, “el bienestar de la IA” y “la gobernanza de la IA” está a punto de pasar de la especulación filosófica a las discusiones sobre diseño de productos y regulación. Al publicar esta evaluación en forma de system card, Anthropic, de hecho, traslada la responsabilidad de debatir esta cuestión ante todos los competidores y organismos reguladores.
Este artículo Anthropic envía a Claude Mythos a una evaluación psiquiátrica de 20 horas: solo 2% de respuestas defensivas, récord nuevo de mínimo histórico, aparece por primera vez en Línk Noticias ABMedia.
Artículos relacionados
Sam Altman describe los cinco principios operativos de OpenAI y señala posibles restricciones futuras de capacidades de los modelos por motivos de seguridad
DeepSeek 将输入缓存价格砍到发布价的 1/10;V4-Pro 降至每百万 tokens 0.025 元
Baidu Qianfan lanza soporte de Día 0 para DeepSeek-V4 con servicios de API
Curso de IA de Stanford que une a líderes de la industria como Huang Renxun y Altman, ¡desafío de crear valor para el mundo en diez semanas!