أعلنت Anthropic في 23/4 عن مراجعة لحادثة جودة مرتبطة بـ Claude Code، واعترفت علنًا بأن ثلاثة أخطاء هندسية متراكبة خلال الشهرين الماضيين تسببت في تراجع جودة استخدام Claude Code، كما قامت في الوقت نفسه بتوضيح أن تأثير ذلك امتد إلى Claude Agent SDK وClaude Cowork. قالت الشركة: «نحن نولي اهتمامًا كبيرًا لعمليات الإبلاغ بشأن تدهور أداء النموذج، ولم نخفض قدرات النموذج عمدًا»، وقامت في 23/4 بإعادة تعيين حدود الاستخدام القصوى لجميع المشتركين كتعويض.
الخط الزمني لثلاثة أعطال والجذور التقنية
المشكلة النطاق الزمني للتأثير الجذر التقني إصدار الإصلاح انخفاض ميزانية الاستدلال 3/4–4/7 reasoning effort افتراضيًا من high إلى medium، ما جعل المستخدمين يشعرون بأن النموذج «أصبح أبلد» 4/7 الرجوع للخلف تنظيف الخبيئة bug 3/26–4/10 thinking الخاصة بجلسة خامل لأكثر من ساعة الخبيئة يتم مسحها كل مرة، وليس مرة واحدة فحسب v2.1.101 prompt موجز يرتد بالسوء 4/16–4/20 إضافة توجيه نظام «نص بين استدعاءات الأداة ≤25 حرفًا»، وأظهرت تجربة ablation انخفاضًا في الذكاء الإجمالي بنسبة 3% v2.1.116
انخفاض الاستدلال: كلفة زمن التأخير
3/4 قامت Anthropic بتعديل reasoning effort الافتراضي لـ Claude Code من high إلى medium، بهدف تقليل زمن التأخير في الردود. لكن هذا التغيير جعل النموذج يبدو «أبلد» في مهام الاستدلال على الكود وتصحيح الأخطاء. بعد الرجوع للخلف في 4/7، فإن Opus 4.7 الآن افتراضيًا xhigh، بينما تظل النماذج الأخرى على high. اعترفت الشركة: قبل التغيير، لم تتمكن التقييمات الداخلية من اكتشاف هذا التدهور.
خلل تنظيف الخبيئة: خطأ ضمن حدود أنظمة متعددة بشكل ضمني
3/26 أدخلت Anthropic تحسينات لتخزين الخبيئة prompt للجلسات التي تكون خاملة لأكثر من ساعة. كان التصميم الأصلي هو «مسح thinking cache بعد امتلاء ساعة من الخمول»، لكن التنفيذ تحول إلى «مسحها في كل مرة بعد حدوث الخمول»، ما تسبب في أن يظهر لدى Claude سلوك «نسيان، وتكرار» في الجلسات الطويلة، وأن تفشل كل مرة في cache leading إلى استهلاك سريع لحد استخدام المستخدم. أشارت Anthropic إلى أن هذا العطل «موجود عند تقاطع إدارة سياق Claude Code وAnthropic API وextended thinking»، ويشمل حدود أنظمة متعددة، ومن الصعب التقاطه عبر الاختبارات الوحدية. تم إصدار الإصلاح في 4/10 عبر v2.1.101.
توجيه موجز بحد 25 حرفًا: لم يظهر انخفاض الذكاء إلا عبر ablation
4/16 أضافت Anthropic توجيه نظام: «يجب أن يبقى إخراج النص بين استدعاءات الأداة ضمن 25 حرفًا»، وكان الهدف تقليل الشروحات المطولة من النموذج وجعل التجربة أنظف. في ذلك الوقت، لم تجد الاختبارات الداخلية أي تدهور، ولكن بعد إجراء مقارنة أكثر صرامة عبر ablation، اكتشفت الشركة أن هذا التوجيه تسبب في انخفاض إجمالي في ذكاء نموذجين Opus 4.6 و4.7 بنحو 3%. تم الرجوع للخلف في 4/20 إلى v2.1.116. يُظهر هذا الحادث: حتى الصياغة الدقيقة اللفظية الصغيرة في system prompt قد تُحدث تأثيرًا بنيويًا غير متوقع على سلوك النموذج.
نطاق التأثير
طبقة المنتجات: Claude Code (تتأثر جميع المشكلات الثلاثة)، Claude Agent SDK (①②)، Claude Cowork (الجميع)
طبقة النماذج: Sonnet 4.6، Opus 4.6، Opus 4.7
بنية تحتية للـ API: لم تتأثر
من ناحية إحساس المستخدمين يظهر ذلك عبر: انخفاض جودة الاستجابات و«الذكاء»، ارتفاع زمن التأخير، فقدان context الخاص بالمحادثة في منتصف الطريق، واستهلاك الاستخدام بشكل أسرع من المتوقع.
التعويض وتحسينات العملية
في 4/23، أعادت Anthropic تعيين الحد الأقصى للاستخدام لجميع المشتركين كتعويض مباشر. كما تعهدت تحسينات العملية الملتزم بها في الوقت نفسه بما يلي:
تطبيق حزمة تقييمات أوسع لتغييرات system prompt (evaluation suite)
تحسين أداة Code Review لاكتشاف حالات التراجع مبكرًا
توحيد معايير الاختبار الداخلية إلى build علني، لتجنب انقسام السلوك بين «الإصدارات الداخلية» و«الإصدارات الخارجية»
إضافة فترة soak وعمليات طرح تدريجي للتغييرات التي قد تؤثر على ذكاء النموذج
الدروس للمستخدمين
بالنسبة للمستخدمين الذين يعتمدون على Claude Code للتطوير والبحث اليومي، تحتوي هذه postmortem على ثلاث نقاط يمكن أخذها كعبر: أولًا، إذا شعرت بأن نموذج Claude «أصبح أبلد» خلال الفترة من منتصف مارس وحتى 20 أبريل، أو إذا كان Claude Code ينسى بشكل غير طبيعي في الجلسات الطويلة، فذلك ليس خطأك أنت ولا توجيه prompt غير مناسب؛ ثانيًا، يمكن للمستخدمين الذين تم استهلاك حدود الاستخدام لديهم بسرعة خلال هذه الفترة أن يتحققوا بعد 4/23 مما إذا كانت Anthropic قد أعادت تعيينه تلقائيًا؛ ثالثًا، حتى ضبط prompt بسيط «ضمن 25 حرفًا» قد يسبب تأثيرًا منهجيًا على سلوك النموذج على مستوى النظام—وهي مخاطر مشتركة في هندسة منتجات LLM.
وبالمقارنة مع المنافسين الذين يلجؤون غالبًا إلى الصمت أو الرد بأن «المستخدم هو من يتعامل بشكل غير صحيح»، فإن الكشف الاستباقي لـ Anthropic والشفافية التقنية لهذه المرة يضعان نموذجًا يمكن الاستفادة منه في مراجعة حوادث منتجات الذكاء الاصطناعي.
ظهرت هذه المقالة التي تكشف عن تراكب ثلاثة أعطال في Claude Code من Anthropic: انخفاض الاستدلال، نسيان الخبيئة، وارتداد توجيه 25 حرفًا، لأول مرة في 鏈新聞 ABMedia.
مقالات ذات صلة
تربح SK Hynix في الربع الأول تقفز خمس مرات إلى مستوى قياسي مع طفرة الذكاء الاصطناعي، ما يعزز مكافآت الموظفين إلى 878 ألف دولار
الأسهم المرتبطة بالذكاء الاصطناعي تمثل الآن 45% من القيمة السوقية لـ S&P 500، وأسواق الائتمان تواجه ضغطًا