Anthropic publie une analyse post-mortem sur la baisse de qualité du code de Claude : trois changements de couche produit, pas des problèmes de modèle

Selon la surveillance de Beating, l’équipe d’ingénierie d’Anthropic a confirmé que la baisse de qualité de Claude Code signalée par les utilisateurs au cours du mois dernier provient de trois changements indépendants au niveau du produit, affectant Claude Code, le SDK d’Agent Claude et Claude Cowork, tandis que l’API et les modèles sous-jacents restent inchangés. Les trois problèmes ont été corrigés les 7, 10 et 20 avril, la version finale étant la v2.1.116. Le premier changement a eu lieu le 4 mars, lorsque l’équipe a ajusté la force d’inférence par défaut de Claude Code de élevée à moyenne pour réduire les longues latences occasionnelles (UI apparaissant figé) sous de fortes charges d’inférence. Les utilisateurs ont largement signalé une baisse de performance, ce qui a conduit à un retour en arrière le 7 avril, avec la configuration par défaut actuelle pour Opus 4.7 réglée sur xhigh et d’autres modèles sur high. Le deuxième problème était un bug introduit le 26 mars, conçu pour effacer les anciens enregistrements d’inférence après qu’une session soit restée inactive plus d’une heure afin d’économiser sur les coûts de récupération de session. Une faille dans l’implémentation a causé l’exécution de l’effacement non pas une seule fois, mais à chaque tour suivant, conduisant le modèle à perdre progressivement le contexte d’inférence précédent, entraînant oubli, actions répétitives et appels anormaux aux outils. Ce bug a également accéléré la consommation du quota utilisateur en raison des échecs de cache à chaque requête. L’équipe a indiqué que deux expériences internes non liées ont obscurci les conditions de reproduction du problème, nécessitant plus d’une semaine d’enquête, avec une correction mise en œuvre le 10 avril. Un examen de code ultérieur utilisant Opus 4.7 sur la PR problématique a révélé qu’Opus 4.7 pouvait détecter ce bug, tandis qu’Opus 4.6 ne pouvait pas. Le troisième changement a été lancé le 16 avril avec Opus 4.7, où l’équipe a ajouté une directive pour limiter la longueur de sortie dans le prompt système : « Le texte entre les appels d’outil ne doit pas dépasser 25 mots, et la réponse finale ne doit pas dépasser 100 mots sauf si la tâche nécessite plus de détails. » Les tests internes n’ont montré aucune régression pendant plusieurs semaines, mais après le lancement, cela s’est combiné avec d’autres prompts pour dégrader la qualité du codage, affectant Sonnet 4.6, Opus 4.6 et Opus 4.7. Des évaluations approfondies ont révélé une baisse de 3 % tant pour Opus 4.6 que pour 4.7, conduisant à un retour en arrière le 20 avril. Les trois changements ont affecté différents groupes d’utilisateurs et ont pris effet à différents moments, se manifestant par une dégradation généralisée et incohérente de la qualité, compliquant le dépannage. Anthropic a déclaré qu’à l’avenir, il faudra que plus d’employés internes utilisent les mêmes versions publiques que les utilisateurs, exécutent des suites complètes d’évaluation du modèle pour chaque modification du prompt système, et instaurent une période de transition. En compensation, Anthropic a réinitialisé les quotas d’utilisation pour tous les utilisateurs abonnés.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler