هل لدى النموذج اللغوي الكبير قدرة على التفكير غير اللغوي؟

مصدر: رقم الكمية

تناولت Ars Technica في مقال رئيسي اليوم مسألة ما إذا كانت النماذج اللغوية الكبيرة تمتلك قدرة على التفكير غير اللغوي، واستشهدت بالدراسات التي أظهرت أن المعالجة في "الفضاء الكامن" يمكن أن تساعد الذكاء الاصطناعي في حل مشكلات منطقية صعبة. فلنستمر في القراءة.

حتى الآن، حققت النماذج اللغوية الكبيرة نجاحًا هائلًا، حيث تستخدم هندستها المحوَّلة بشكل فعال لتوقع الكلمة التالية المطلوبة (أي الرمز اللغوي) في الاستعلام الذي يتم الرد عليه. ومع ذلك، عندما يتعلق الأمر بالمهام المعقدة التي تتطلب استنتاجات مجردة، اكتشف بعض الباحثين أن محاولة شرح كل شيء من خلال هذا "المساحة اللغوية" قد تؤدي إلى بعض المشاكل، وهذا ينطبق حتى على النماذج الحديثة "للاستنتاج".

حالياً، يحاول الباحثون حل هذه المشكلات من خلال تصميم نماذج يمكنها حساب الحلول المنطقية المحتملة في "الفضاء الكامن" - أي الطبقة الحسابية الخفية قبل إنشاء اللغة بواسطة المحول. على الرغم من أن هذا الأسلوب لن يحدث تغييراً جذرياً في قدرة النماذج اللغوية الكبيرة على الاستنتاج، إلا أنه يحسن بشكل واضح دقة بعض المشكلات المنطقية ويشير إلى بعض الاتجاهات الجديدة للأبحاث.

انتظر، ما هو الفضاء؟

تميل النماذج الحديثة للتفكير (مثل ChatGPT o1) إلى العمل عن طريق إنشاء "سلسلة تفكير". في هذه النماذج، يتم تمثيل كل خطوة في العملية المنطقية كسلسلة من علامات الكلمات الطبيعية وإرجاعها عبر النموذج.

في ورقة بحثية جديدة، يعتبر فريق البحث الأساسي للذكاء الاصطناعي Meta وباحثو جامعة كاليفورنيا في سان دييغو هذا التبعية على اللغة الطبيعية و"علامات الكلمات" كعامل "قيد أساسي" لهذه النماذج الاستدلالية. وذلك لأن النجاح في إكمال المهام الاستدلالية يتطلب غالباً التخطيط المعقد للعلامات المفتاحية المحددة للعثور على المسار المنطقي الصحيح من بين الخيارات العديدة.

!

أوضح الرسم البياني أن كل خطوة في النموذج القياسي تتطلب مرورًا عبر محول، وهو الفارق بين نموذج COCONUT واستخدام حالة "الكامنة" المخفية. (مصدر الصورة: تدريب النماذج اللغوية الكبيرة للتفكير في مساحة كامنة مستمرة)

قال الباحثون: إن العلامات الكلمات في النماذج الحالية لسلسلة الأفكار عادة ما تكون مولدة لـ "اتساق النص" و "سلاسة"، مع تقديم "مساهمة ضئيلة جدًا في عملية الاستدلال الفعلية". بدلاً من ذلك، يوصون بأن "الحالة المثالية هي أن تتمكن النماذج اللغوية الكبيرة من التستقلية في التفكير دون أي قيود لغوية، ثم تحويل اكتشافاتها إلى لغة فقط عند الضرورة".

لتحقيق هذا "المثال"، وصف الباحثون طريقة "تدريب نماذج اللغة الكبيرة على استنتاج في الفضاء المحتمل المتصل"، كما هو موضح في عنوان الورقة. "الفضاء المحتمل" هو في جوهره مجموعة من مجموعات الوزن المخفية التي تشكل الحالة الداخلية التي تحتوي عليها النموذج قبل أن يتم توليد النسخة القابلة للقراءة باللغة الطبيعية من هذا الحالة الداخلية.

في نموذج COCONUT (سلسلة التفكير المستمر) للمستكشفين ، يتم تشفير هذه الحالات المخفية كـ "التفكير الكامن" ، وعند التدريب ومعالجة الاستعلامات ، يتم استبدالها بترتيب منطقي بدلاً من خطوات مكتوبة فردية. كما ذكر الباحثون ، يتجنب ذلك تحويل كل خطوة إلى لغة طبيعية و "يطلق التفكير من الفضاء اللغوي" ، مما يؤدي إلى مسار استدلال محسن يشار إليه باسم "التفكير المستمر".

رؤية أوسع

على الرغم من أن معالجة المنطق في الفضاء المحتمل لها فوائد معينة لزيادة كفاءة النموذج، إلا أن الاكتشاف الأكثر أهمية هو أن هذا النموذج يمكنه 'ترميز خطوات متعددة محتملة في نفس الوقت'. من خلال معالجة المنطق في 'الفضاء المحتمل'، يمكن تحقيق إمكانية العودة الفورية، ويقارن الباحثون ذلك بالبحث عن العمق أولاً في الرسم البياني بدلاً من البحث المتسلسل والمتعاقب لكل خيار منطقي في عملية 'الطمع'.

ذكر الباحثون أن هذه السمة المفاجئة والتزامنية في المعالجة ستتجلى في الاختبارات حتى إذا لم يتم تدريب النموذج بوضوح. يمكن للنموذج أن يحافظ على العديد من الخيارات الممكنة في التفكير المستمر ويقضي على المسارات غير الصحيحة تدريجياً من خلال الاستدلال تحت توجيه دوال القيمة المستترة

!

توضح هذه الصورة بشكل رئيسي بعض الطرق التي قد يفشل فيها نماذج مختلفة في بعض أنواع الاستدلال المنطقي. (مصدر الصورة: تدريب نماذج اللغة الكبيرة على التفكير في مساحة مستمرة مختفية)

في اختبار التفكير الرياضي النسبي البسيط (GSM8K) أو الاختبار العام (ProntoQA) ، لم يؤدي هذا التفكير متعدد المسارات إلى زيادة دقة COCONUT بالمقارنة مع نموذج السلسلة التقليدية. ومع ذلك، اكتشف الباحثون أن هذا النموذج يظهر أداءً مقبولًا نسبيًا في مجموعة من الاستفسارات بنمط ProntoQA المولدة عشوائيًا، والتي تتضمن مجموعة من الشروط المنطقية المعقدة والمتشابكة (مثل "كل تفاحة هي فاكهة، وكل فاكهة هي طعام، وهكذا").

بالنسبة لهذه المهام ، تميل نماذج التفكير الذهني القياسية إلى الوقوع في طريق مسدود من التفكير وحتى إنتاج قواعد خيالية تماما عند محاولة حل مشاكل السلسلة المنطقية. أظهرت الأبحاث السابقة أيضا أن الخطوات المنطقية "اللفظية" الناتجة عن نماذج سلسلة التفكير هذه "قد تستفيد بالفعل من عمليات التفكير الكامنة التي تختلف عن عمليات التفكير المشتركة".

ينضم البحث الجديد إلى مجموعة متزايدة من الأبحاث التي تهدف إلى فهم والاستفادة من كيفية عمل نماذج اللغة الكبيرة على مستوى شبكاتها العصبية الأساسية. في حين لم يتم تحقيق اختراقات كبيرة في هذا النوع من الأبحاث ، يعتقد الباحثون أن النماذج المدربة مسبقا مع هذا "التفكير المستمر" منذ البداية يمكن أن "تمكن النماذج من التعميم بشكل أكثر فعالية في مجموعة واسعة من سيناريوهات الاستدلال".

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت