تكشف Anthropic عن أخطاء متعددة متراكمة في Claude Code: تدهور في الاستدلال، ونسيان ذاكرة التخزين المؤقت، وانتكاس تعليمات من 25 حرفًا

ChainNewsAbmedia

أعلنت Anthropic في 23/4 عن مراجعة لحادثة جودة مرتبطة بـ Claude Code، واعترفت علنًا بأن ثلاثة أخطاء هندسية متراكبة خلال الشهرين الماضيين تسببت في تراجع جودة استخدام Claude Code، كما قامت في الوقت نفسه بتوضيح أن تأثير ذلك امتد إلى Claude Agent SDK وClaude Cowork. قالت الشركة: «نحن نولي اهتمامًا كبيرًا لعمليات الإبلاغ بشأن تدهور أداء النموذج، ولم نخفض قدرات النموذج عمدًا»، وقامت في 23/4 بإعادة تعيين حدود الاستخدام القصوى لجميع المشتركين كتعويض.

الخط الزمني لثلاثة أعطال والجذور التقنية

المشكلة النطاق الزمني للتأثير الجذر التقني إصدار الإصلاح انخفاض ميزانية الاستدلال 3/4–4/7 reasoning effort افتراضيًا من high إلى medium، ما جعل المستخدمين يشعرون بأن النموذج «أصبح أبلد» 4/7 الرجوع للخلف تنظيف الخبيئة bug 3/26–4/10 thinking الخاصة بجلسة خامل لأكثر من ساعة الخبيئة يتم مسحها كل مرة، وليس مرة واحدة فحسب v2.1.101 prompt موجز يرتد بالسوء 4/16–4/20 إضافة توجيه نظام «نص بين استدعاءات الأداة ≤25 حرفًا»، وأظهرت تجربة ablation انخفاضًا في الذكاء الإجمالي بنسبة 3% v2.1.116

انخفاض الاستدلال: كلفة زمن التأخير

3/4 قامت Anthropic بتعديل reasoning effort الافتراضي لـ Claude Code من high إلى medium، بهدف تقليل زمن التأخير في الردود. لكن هذا التغيير جعل النموذج يبدو «أبلد» في مهام الاستدلال على الكود وتصحيح الأخطاء. بعد الرجوع للخلف في 4/7، فإن Opus 4.7 الآن افتراضيًا xhigh، بينما تظل النماذج الأخرى على high. اعترفت الشركة: قبل التغيير، لم تتمكن التقييمات الداخلية من اكتشاف هذا التدهور.

خلل تنظيف الخبيئة: خطأ ضمن حدود أنظمة متعددة بشكل ضمني

3/26 أدخلت Anthropic تحسينات لتخزين الخبيئة prompt للجلسات التي تكون خاملة لأكثر من ساعة. كان التصميم الأصلي هو «مسح thinking cache بعد امتلاء ساعة من الخمول»، لكن التنفيذ تحول إلى «مسحها في كل مرة بعد حدوث الخمول»، ما تسبب في أن يظهر لدى Claude سلوك «نسيان، وتكرار» في الجلسات الطويلة، وأن تفشل كل مرة في cache leading إلى استهلاك سريع لحد استخدام المستخدم. أشارت Anthropic إلى أن هذا العطل «موجود عند تقاطع إدارة سياق Claude Code وAnthropic API وextended thinking»، ويشمل حدود أنظمة متعددة، ومن الصعب التقاطه عبر الاختبارات الوحدية. تم إصدار الإصلاح في 4/10 عبر v2.1.101.

توجيه موجز بحد 25 حرفًا: لم يظهر انخفاض الذكاء إلا عبر ablation

4/16 أضافت Anthropic توجيه نظام: «يجب أن يبقى إخراج النص بين استدعاءات الأداة ضمن 25 حرفًا»، وكان الهدف تقليل الشروحات المطولة من النموذج وجعل التجربة أنظف. في ذلك الوقت، لم تجد الاختبارات الداخلية أي تدهور، ولكن بعد إجراء مقارنة أكثر صرامة عبر ablation، اكتشفت الشركة أن هذا التوجيه تسبب في انخفاض إجمالي في ذكاء نموذجين Opus 4.6 و4.7 بنحو 3%. تم الرجوع للخلف في 4/20 إلى v2.1.116. يُظهر هذا الحادث: حتى الصياغة الدقيقة اللفظية الصغيرة في system prompt قد تُحدث تأثيرًا بنيويًا غير متوقع على سلوك النموذج.

نطاق التأثير

طبقة المنتجات: Claude Code (تتأثر جميع المشكلات الثلاثة)، Claude Agent SDK (①②)، Claude Cowork (الجميع)

طبقة النماذج: Sonnet 4.6، Opus 4.6، Opus 4.7

بنية تحتية للـ API: لم تتأثر

من ناحية إحساس المستخدمين يظهر ذلك عبر: انخفاض جودة الاستجابات و«الذكاء»، ارتفاع زمن التأخير، فقدان context الخاص بالمحادثة في منتصف الطريق، واستهلاك الاستخدام بشكل أسرع من المتوقع.

التعويض وتحسينات العملية

في 4/23، أعادت Anthropic تعيين الحد الأقصى للاستخدام لجميع المشتركين كتعويض مباشر. كما تعهدت تحسينات العملية الملتزم بها في الوقت نفسه بما يلي:

تطبيق حزمة تقييمات أوسع لتغييرات system prompt (evaluation suite)

تحسين أداة Code Review لاكتشاف حالات التراجع مبكرًا

توحيد معايير الاختبار الداخلية إلى build علني، لتجنب انقسام السلوك بين «الإصدارات الداخلية» و«الإصدارات الخارجية»

إضافة فترة soak وعمليات طرح تدريجي للتغييرات التي قد تؤثر على ذكاء النموذج

الدروس للمستخدمين

بالنسبة للمستخدمين الذين يعتمدون على Claude Code للتطوير والبحث اليومي، تحتوي هذه postmortem على ثلاث نقاط يمكن أخذها كعبر: أولًا، إذا شعرت بأن نموذج Claude «أصبح أبلد» خلال الفترة من منتصف مارس وحتى 20 أبريل، أو إذا كان Claude Code ينسى بشكل غير طبيعي في الجلسات الطويلة، فذلك ليس خطأك أنت ولا توجيه prompt غير مناسب؛ ثانيًا، يمكن للمستخدمين الذين تم استهلاك حدود الاستخدام لديهم بسرعة خلال هذه الفترة أن يتحققوا بعد 4/23 مما إذا كانت Anthropic قد أعادت تعيينه تلقائيًا؛ ثالثًا، حتى ضبط prompt بسيط «ضمن 25 حرفًا» قد يسبب تأثيرًا منهجيًا على سلوك النموذج على مستوى النظام—وهي مخاطر مشتركة في هندسة منتجات LLM.

وبالمقارنة مع المنافسين الذين يلجؤون غالبًا إلى الصمت أو الرد بأن «المستخدم هو من يتعامل بشكل غير صحيح»، فإن الكشف الاستباقي لـ Anthropic والشفافية التقنية لهذه المرة يضعان نموذجًا يمكن الاستفادة منه في مراجعة حوادث منتجات الذكاء الاصطناعي.

ظهرت هذه المقالة التي تكشف عن تراكب ثلاثة أعطال في Claude Code من Anthropic: انخفاض الاستدلال، نسيان الخبيئة، وارتداد توجيه 25 حرفًا، لأول مرة في 鏈新聞 ABMedia.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

تربح SK Hynix في الربع الأول تقفز خمس مرات إلى مستوى قياسي مع طفرة الذكاء الاصطناعي، ما يعزز مكافآت الموظفين إلى 878 ألف دولار

رسالة بوابة الأخبار، 24 أبريل — أفادت شركة SK Hynix بتضاعف خمس مرات في أرباح التشغيل الفصلية إلى رقم قياسي بلغ 37.61 تريليون وون ($32.4 مليار) في 23 أبريل، مدفوعةً بارتفاع الطلب من الذكاء الاصطناعي ومراكز البيانات. تستغل هذه المكاسب العوائد غير المسبوقة لمكافآت الموظفين، ويتوقع محللون أن يمكن أن تصل إلى ما يصل إلى $878,000 لكل موظف في 2027 إذا ظلت توقعات الأرباح الحالية ثابتة. لدى المحللين

GateNewsمنذ 21 د

DeepSeek V4 架构已验证:4 个预测中命中 3 个,Engram 模块缺失

Gate News 消息,4 月 24 日——DeepSeek 今天发布了 V4 模型卡,通过对昨日发布的 TileKernels 内核库进行分析,对先前的架构预测进行了验证 (4 月 23 日)。根据 Beating 的监测,确认了三个核心组件:mHC

GateNewsمنذ 21 د

DeepSeek 发布 V4 开源模型系列:1.6T 参数与 MIT 许可

Gate News 消息,4 月 24 日——DeepSeek 已在 MIT 许可下发布 V4 系列开源模型,权重现已在 Hugging Face 和 ModelScope 上提供。该系列包含两个专家混合 (MoE) 模型:V4-Pro 总参数 1.6 万亿,按每个 token 激活 49 亿

GateNewsمنذ 38 د

软银计划在大阪建设 AI 数据中心电池工厂,目标五年内投产

Gate News 消息,4月24日——软银株式会社,日本软银集团旗下的移动业务部门,计划将其大阪堺市的部分工厂改造为用于 AI 数据中心的大型电池生产线。预计 CEO 宫川纯一(Junichi Miyakawa)将于 5 月公布该项目,作为一项新的五年计划的一部分。

GateNewsمنذ 1 س

杰夫·贝索斯的Project Prometheus以$10B 估值融资$38B

Gate News消息,4月24日——由亚马逊创始人杰夫·贝索斯和前谷歌高管维克·巴贾吉创立的AI实验室Project Prometheus已在$10 十亿美元融资轮次中完成融资,估值为$38 十亿美元。摩根大通和贝莱德是

GateNewsمنذ 1 س

الأسهم المرتبطة بالذكاء الاصطناعي تمثل الآن 45% من القيمة السوقية لـ S&P 500، وأسواق الائتمان تواجه ضغطًا

بوابة الأخبار، رسالة بتاريخ 24 أبريل — وفقًا لرسالة The Kobeissi Letter، أصبحت أسهم الشركات المرتبطة بالذكاء الاصطناعي الآن تمثل 45% من إجمالي القيمة السوقية للأسهم في مؤشر (U.S. Benchmark Equity Index) الخاص بمؤشر S&P 500، مسجلة مستوىً تاريخيًا مرتفعًا، مع زيادة قدرها 20 نقطة مئوية منذ إطلاق ChatGPT في نوفمبر 2022. في الوقت نفسه، ارتفعت ديون الاستثمار ذات الدرجة الاستثمارية المرتبطة بالذكاء الاصطناعي إلى 15.4% من سوق الائتمان الأمريكي، لتصبح أكبر قطاع. وهذا يمثل زيادة قدرها 3.5 نقاط مئوية عن عام 2020، حيث تضاعف إجمالي الدين القائم المقابل تقريبًا إلى 1.4 تريليون دولار، وهو مستوى قياسي على الإطلاق.

GateNewsمنذ 1 س
تعليق
0/400
لا توجد تعليقات