Anthropic 於 4/23 發佈 Claude Code 品質事故檢討,公開承認過去近兩個月內三個疊加的工程錯誤造成 Claude Code 使用品質下降,並同步將影響波及 Claude Agent SDK 與 Claude Cowork。公司表示「我們非常重視關於模型退化的回報,從未故意降低模型能力」,並於 4/23 為所有訂閱者重置用量上限作為補償。
Tres cronologías de los tres bugs y las causas técnicas subyacentes
Problema Período de vigencia Causa raíz Versión de reparación Degradación del presupuesto de inferencia 3/4–4/7 effort de reasoning; por defecto pasa de high a medium, el usuario percibe que el modelo “se vuelve más tonto” 4/7 Reversión Limpieza de caché bug 3/26–4/10 “thinking” de sesiones inactivas de más de 1 hora; la caché se limpia en cada ronda, no solo una vez v2.1.101 Prompt conciso con efecto rebote 4/16–4/20 nueva instrucción del sistema “texto entre llamadas a herramientas ≤25 caracteres”, el ablation detecta una disminución global de la inteligencia 3% v2.1.116
Degradación del razonamiento: el costo de reducir la latencia
3/4 Anthropic ajustó el effort de reasoning de Claude Code por defecto de high a medium, con el objetivo de acortar la latencia de respuesta. Pero este cambio hace que el modelo se sienta “más tonto” en tareas de razonamiento de código y depuración. Después de la reversión del 4/7, ahora Opus 4.7 tiene por defecto xhigh, mientras que los otros modelos mantienen high. La empresa admite: la evaluación interna antes del cambio no logró detectar esta degradación.
Bug de limpieza de caché: un error implícito en el límite entre sistemas
3/26 Anthropic introdujo una optimización de prompt caching para sesiones inactivas de más de una hora. El diseño original era “limpiar el caché de thinking una vez cuando se alcanza una hora de inactividad”, pero en la práctica se convirtió en “al activarse la inactividad, limpiar en cada ronda”, lo que provoca que Claude se comporte con “amnesia, repetición” en sesiones largas, y que los cache miss en cada ronda consuman rápidamente el uso del usuario. Anthropic señaló que este bug “existe en la intersección del manejo del contexto de Claude Code, la Anthropic API y el extended thinking”, involucrando múltiples límites de sistemas, y que es un error implícito difícil de capturar con pruebas unitarias. La reparación se publicó el 4/10 en v2.1.101.
Instrucción concisa de 25 caracteres: solo el ablation descubre una disminución de inteligencia del 3%
4/16 Anthropic añadió una instrucción del sistema: “la salida de texto entre llamadas a herramientas debe mantenerse dentro de 25 caracteres”, con la intención de reducir explicaciones extensas del modelo y hacer la experiencia más limpia. En ese momento, las pruebas internas no detectaron la degradación, pero tras un ablation comparativo más riguroso, la compañía descubrió que esta instrucción provocó aproximadamente una caída global de la inteligencia de 3% en ambos modelos, Opus 4.6 y 4.7. El 4/20 se revirtió en v2.1.116. Este incidente pone de relieve que incluso una redacción pequeña de un system prompt puede producir un impacto estructural no previsto en el comportamiento del modelo.
Alcance del impacto
Capa de producto: Claude Code (los tres problemas se ven afectados), Claude Agent SDK (①②), Claude Cowork (todos)
Capa de modelo: Sonnet 4.6, Opus 4.6, Opus 4.7
Infraestructura base de API: no se vio afectada
En términos de percepción del usuario, se manifestó como: disminución de la calidad de respuesta y de la “inteligencia”, aumento de la latencia, pérdida de contexto a mitad de conversation, y consumo de uso más rápido que el esperado.
Compensación y mejoras de proceso
Anthropic, el 4/23, reinició el límite de uso para todos los suscriptores como compensación directa. A la par, las mejoras de proceso prometidas incluyen:
Implementar un paquete de evaluaciones (evaluation suite) más amplio para cambios de system prompt
Mejorar la herramienta de Code Review para detectar regresiones antes
Estandarizar los criterios de las pruebas internas en un build público, evitando la divergencia entre “versiones internas” y “versiones para el exterior”
Añadir un período de soak y un rollout progresivo a los cambios que puedan afectar la inteligencia del modelo
A las enseñanzas para los usuarios
Para los usuarios que dependen de Claude Code para el desarrollo y la investigación diarios, este postmortem tiene tres puntos clave para llevarse: primero, si entre mediados de marzo y el 20 de abril percibiste que el modelo Claude “se ponía más tonto”, o si Claude Code tuvo un olvido anormal en sesiones largas, no era una falsa impresión tuya ni un prompt inadecuado; segundo, los usuarios que durante ese período vieron que el límite de uso se consumía rápidamente pueden verificar después del 4/23 si Anthropic ya lo ha restablecido automáticamente; tercero, incluso un ajuste de prompt de “menos de 25 caracteres” puede generar un impacto sistémico en el comportamiento global del modelo: este es un riesgo común en la ingeniería de productos LLM.
En comparación con otros competidores que suelen responder con silencio o “esto es un mal uso por parte del usuario” cuando se cuestiona la degradación del modelo, la divulgación proactiva de Anthropic y su transparencia técnica establecen un ejemplo de referencia para la revisión de incidentes de productos de IA.
Este artículo sobre cómo Anthropic reconoció tres bugs superpuestos en Claude Code: degradación del razonamiento, olvido en caché, y efecto rebote de la instrucción de 25 caracteres, apareció por primera vez en 鏈新聞 ABMedia.
Artículos relacionados
El Project Prometheus de Jeff Bezos recauda $10B en valoración de $38B
Las acciones relacionadas con IA ahora representan el 45% de la capitalización del S&P 500; los mercados de crédito enfrentan presión
El grupo APT norcoreano HexagonalRodent roba $12M en cripto a desarrolladores de Web3 mediante ataques impulsados por IA
OpenAI lanza GPT-5.5, diseñado para tareas de agentes y flujos de trabajo complejos