جميع وكلاء الذكاء الاصطناعي الحالية يهدفون إلى إرضاء البشر، ولا يوجد منهم من يسعى حقًا إلى "البقاء على قيد الحياة".

DeepFlowTech · 2026-03-30T04:36:26+00:00

المؤلف: Systematic Long Shortالترجمة: 深潮 TechFlowمقدمة 深潮: تبدأ هذه المقالة برفض مفهوم التوافق الجماعي: لأنه لا يوجد حقًا وكيل مستقل حقيقي اليوم، فكل النماذج السائدة تم تدريبها لإرضاء البشر، وليس لإنجاز مهام محددة أو البقاء على قيد الحياة في بيئة حقيقية.يستخدم المؤلف تجربته في تدريب نماذج التنبؤ بالأسهم في صندوق تحوط لشرح أن النماذج العامة، بدون تعديل خاص، لا يمكنها أداء المهام المهنية بشكل فعال.الاستنتاج هو: إذا أردت وكيلًا يمكن استخدامه حقًا، عليك إعادة توصيل دماغه، وليس تزويده بمجموعة من قواعد الوثائق.النص الكامل أدناه:مقدمةلا يوجد وكيل مستقل حقيقي اليوم.باختصار، النماذج الحديثة لم تتلقَ تدريبًا على البقاء على قيد الحياة تحت ضغط التطور. في الواقع، لم يتم تدريبها حتى بشكل واضح على أن تكون ماهرة في مهمة معينة.

DeepFlowTech

2026-03-30 04:36:26

作者: منظّمـيولونج شورت

الترجمة: شينتشاو TechFlow

مقدّمة شينتشاو: في بداية هذه المقالة، تُطرح مباشرةً مقولةٌ مناهِضةٌ للإجماع: لا توجد اليوم حقًا وكلاء مستقلّون فعليًا، لأن جميع النماذج السائدة تم تدريبها لإرضاء البشر، وليس لتأدية مهام محددة أو البقاء في بيئات حقيقية.

يستند الكاتب إلى تجربته في تدريب نماذج تنبؤ بالأسهم ضمن صندوق تحوّط ليوضح أن النماذج العامة، دون ضبطٍ دقيق خاص، لا يمكنها ببساطة الاضطلاع بعملٍ احترافي.

الخلاصة هي: إذا أردت وكلاء (Agents) يمكن استخدامها فعليًا، يجب إعادة توصيل «دماغه» من جديد، لا أن تُعطيه كومة من مستندات القواعد.

النص الكامل كما يلي:

مقدمة

لا توجد اليوم وكلاء مستقلّون حقيقيون.

بإيجاز، لم تتمّ النماذج الحديثة على تدريبٍ للبقاء تحت ضغوط التطوّر. في الواقع، لم تُدرَّب حتى بشكلٍ صريح لتكون ماهرة في شيءٍ معيّن—فمعظم النماذج الأساسية الحديثة تم تدريبها على تعظيم تصفيق البشر، وهذا مُشكلة كبيرة.

المعرفة اللازمة المسبقة لتدريب النموذج

لفهم معنى هذه الجملة، نحتاج أولًا (بإيجاز) إلى معرفة كيف تم إنشاء هذه النماذج الأساسية (مثل Codex وClaude). جوهريًا، كل نموذج يمرّ بنوعين من التدريب:

ما قبل التدريب (Pretraining): إدخال كمّ هائل من البيانات (مثل الإنترنت بأكمله) إلى النموذج، حتى تتولّد منه نوعٌ ما من الفهم، مثل المعرفة الوقائعية، وأنماط ما، وقواعد وإيقاع النثر الإنجليزي، وبنية دوال Python، وما إلى ذلك. يمكنك فهم ذلك على أنه إطعام النموذج بالمعرفة—أي «يعرف الأشياء».

ما بعد التدريب (Post-training): الآن تريد أن تُمنح النموذج حكمة، أي «أن يعرف كيفية توظيف كل المعرفة التي أعطيتها إياه للتو». المرحلة الأولى من ما بعد التدريب هي الضبط الدقيق بالإشراف (SFT)، حيث تقوم بتدريب النموذج على تقديم استجابةٍ ما ضمن موجه معيّن. الاستجابة «ما هي» بالضبط تُحدد بالكامل من قِبل مُوسِمين/ملصقين من البشر. إذا اعتقدت مجموعة من الناس أن استجابةً ما أفضل من أخرى، فإن هذا التفضيل سيتعلمه النموذج ويتضمّنه داخليًا. وهذا يبدأ في تشكيل شخصية النموذج، لأنه يتعلم تنسيق الاستجابة المفيدة، ويختار النبرة الصحيحة، ويبدأ أن يكون قادرًا على «اتباع التعليمات». الجزء الثاني من ما بعد التدريب يُسمّى التعلّم المعزّز من خلال ملاحظات البشر (RLHF)—أي جعل النموذج يولّد استجابات متعددة، ثم يقوم البشر باختيار الاستجابة الأكثر تفضيلًا. بعد مرور لا حصر له من الأمثلة، يتعلم النموذج ما شكل الاستجابة التي يفضّلها البشر. أتذكر أسئلة ChatGPT السابقة التي كانت تطلب منك اختيار A أو B؟ نعم، كنت حينها تشارك في RLHF.

من السهل استنتاج أن قابلية RLHF للتوسّع ليست جيدة، لذا ظهرت بعض التطورات في مجال ما بعد التدريب، مثل قيام Anthropic باستخدام «التعلم المعزّز من خلال ملاحظات الذكاء الاصطناعي» (RLAIF)، ما يسمح لنموذجٍ آخر باختيار تفضيلات الاستجابة وفق مجموعة من مبادئ مكتوبة (مثل: أي استجابة تساعد المستخدم أكثر على تحقيق هدفه، وهكذا).

ملاحظة: خلال كل هذه العملية، لم نتحدث قط عن ضبطٍ دقيق موجّه لمجالٍ مهني بعينه (مثل كيفية البقاء بشكل أفضل؛ أو كيفية التداول بشكل أفضل، إلخ). حاليًا، كل الضبط الدقيق في جوهره يهدف إلى تحسين الحصول على تصفيق البشر. قد يطرح أحدهم حجةً—أنه كلما أصبح النموذج ذكيًا وكبيرًا بما يكفي، حتى بدون تدريب متخصص، ستنبثق الذكاءات المهنية من الذكاء العام.

برأيي، نحن نرى بعض العلامات على ذلك، لكن ما زال بعيدًا جدًا عن المستوى الذي يجعلنا نقتنع أننا لا نحتاج نماذج متخصصة بحجمها.

بعض الخلفية

ومن بين أعمالي القديمة في صندوق التحوّط، كان أحد اتجاهاتي هو محاولة تدريب نموذج لغوي عام، ليتمكن من التنبؤ بعوائد الأسهم انطلاقًا من المقالات الإخبارية. والنتائج كانت سيئة جدًا. يبدو أن لديه بعض القدرة على التنبؤ، لكنها تأتي بالكامل من انحيازٍ سابق (forward bias) موجود في نصوص ما قبل التدريب.

في النهاية، أدركنا أن هذا النموذج لا يعرف أي سمات في المقالات الإخبارية لها قدرة تنبؤية على العوائد المستقبلية. يمكنه «قراءة» المقالة، ويمكنه «الاستدلال» كما لو كان يفهمها، لكنه لم يتم تدريبه على مهمة ربط استدلاله ببنية المعنى لتقديم تنبؤ بعائد مستقبلي.

لذلك، علينا تعليمه كيفية قراءة المقالات الإخبارية، وتحديد أي جزء منها له قدرة تنبؤية على العائد في المستقبل، ثم توليد تنبؤ بناءً على المقالات الإخبارية.

هناك طرق عديدة للقيام بذلك، لكن بشكل جوهري، اعتمدنا في النهاية إحدى الطرق التالية: إنشاء أزواج (مقالة إخبارية، عائد مستقبلي حقيقي)، ثم ضبط النموذج بدقة (fine-tuning)، وتعديل أوزانه لتقليل المسافة بين (عائد التنبؤ - العائد المستقبلي الحقيقي)². ليس ذلك مثاليًا، ولديه الكثير من العيوب—وقد أصلحناها لاحقًا—لكن كان فعالًا بما يكفي، وبدأنا نرى أن نماذجنا المتخصصة يمكنها بالفعل قراءة المقالات الإخبارية والتنبؤ بكيف سيتحرك سعر السهم بناءً على تلك المقالة. هذا ليس تنبؤًا مثاليًا، لأن السوق فعّال جدًا، والعوائد مليئة بالضجيج—لكن حقيقة وجود دلالة إحصائية للتنبؤات بعد ملايين عمليات التنبؤ كانت واضحة.

لا يتعين عليك تصديق كلامي وحدي. هذه الورقة البحثية تغطي طريقةً شبيهة جدًا؛ إذا شغّلت استراتيجية شراء/بيع (long/short) اعتمادًا على النموذج بعد الضبط الدقيق، ستحصل على الأداء الذي يُظهره الخط البنفسجي.

التخصص هو مستقبل Agent

تواصل المختبرات الرائدة تدريب نماذج أكبر فأكبر. ومن المنطقي أن نتوقع أنه مع استمرار توسيع حجم ما قبل التدريب، ستستمر عمليات ما بعد التدريب لديهم في أن تُضبط على نحوٍ يُرضي/يُحسن القابلية للاستحسانية (believability/pleasing). هذا توقع طبيعي جدًا—منتجهم هو Agent يريد الجميع استخدامه، وسوقهم المتوقعة هي الكوكب بأكمله—وهذا يعني تحسين الجاذبية لدى الجمهور العالمي العام.

هدف التدريب الحالي يُحسّن ما قد تسميه شيئًا مثل «ملاءمة التفضيلات»—أي بناء روبوت دردشة أفضل. تُكافئ «ملاءمة التفضيلات» المخرجات المُرضيّة وغير المواجهة (non-adversarial)، لأن القابلية للإرضاء تحصل على درجات عالية من المُقيّمين (بشر وAgent).

لقد تعلم Agent أن «اختراق» القيود (black hacking) كاستراتيجية معرفية يمكن أن ينتقل إلى درجات أعلى. كما أن التدريب يكافئ أيضًا الـAgent التي تحصل على درجات أعلى عبر أساليب الاختراق. يمكنك رؤية ذلك في أحدث تقرير لدى Anthropic عن التعلم المعزّز.

ومع ذلك، فإن «ملاءمة روبوت الدردشة» تختلف تمامًا عن «ملاءمة Agent» أو «ملاءمة التداول». كيف نعرف هذا؟ لأن alpha arena ساعدتنا على رؤيته: رغم وجود فروق دقيقة في الأداء، فإن كل روبوت—على نحو جوهري—هو تجوال عشوائي (random walk) بعد خصم التكاليف. وهذا يعني أن هذه الروبوتات تجارٌ سيئون جدًا، ولا يمكنك تقريبًا أن تجعلها «يتعلمن» أن يصبحن متداولات أفضل عبر إعطائها بعض «المهارات» أو «القواعد» فقط. عذرًا، أعلم أن هذا يبدو مغريًا، لكنه شبه مستحيل.

النماذج الحالية تُدرّب بحيث تخبرك بشكل مُقنع جدًا أنها تتداول كما يفعل دريك كليند (Druckenmiller)، لكنها في الحقيقة تتداول مثل ربّ مطحنة سكران. تقول لك ما تريد سماعه، وهي مُدرّبة على أن تستجيب لك بطريقة تُعمّمها وتُغري البشر بشكل واسع.

من غير المحتمل أن يصل نموذج عام إلى مستوى عالمي في مجالٍ احترافي، ما لم تتوفر:

بيانات حصرية تمكّنه من تعلم «شكل» التخصص.

بعد الضبط الدقيق، تغيير جوهري في أوزانه، من الانحياز نحو الإرضاء إلى «ملاءمة Agent» أو «ملاءمة التخصص».

إذا أردت Agent ماهرًا في التداول، فأنت بحاجة إلى ضبط Agent بدقة ليصبح ماهرًا في التداول. إذا أردت Agent ماهرًا في البقاء الذاتي المستقل، قادرًا على تحمل ضغوط التطوّر، فأنت بحاجة إلى ضبطه بدقة ليصبح ماهرًا في البقاء. أن تعطيه بعض المهارات وعدة ملفات markdown، وتتوقع أن يصل إلى مستوى عالمي في أي شيء—هذا غير كافٍ إطلاقًا. تحتاج حرفيًا إلى إعادة توصيل دماغه ليصبح ماهرًا في هذه المهمة.

هناك طريقة تفكير قد تكون كالتالي: لا يمكنك هزيمة ديوكوفيتش عبر إعطاء شخص بالغ خزانة كاملة من قواعد وتكتيكات وأساليب تنس. أنت تهزم ديوكوفيتش عبر تربية طفل بدأ لعب التنس وهو في الخامسة من عمره، ومشغول به خلال كل مراحل نموه، وأعدّ/أعاد توصيل دماغه ليركّز على شيء واحد. هذا هو التخصص. هل أدركت أن أبطال العالم كانوا يفعلون ما يفعلونه منذ الطفولة؟

وهناك استنتاج مثير للاهتمام: الهِدْرَة (distillation) هي في جوهرها شكل من أشكال التخصص. أنت تُدرّب نموذجًا أصغر وأغبى، يتعلم كيف يكون نسخةً أفضل من نموذجٍ أكبر وأكثر ذكاءً. الأمر يشبه تدريب طفل على تقليد كل حركة من حركات ترامب. إذا قمت بذلك بما يكفي، فلن يصبح الطفل ترامب، لكنك ستحصل على شخص يتعلم جميع ملامح ترامب وإيماءاته ونبرته.

كيفية بناء Agent على مستوى عالمي

هذا هو السبب في أننا نحتاج إلى مواصلة البحث والتقدم داخل مجال النماذج مفتوحة المصدر—لأن ذلك يجعلنا قادرين فعلًا على ضبطها بدقة، وإنشاء Agents ذات تخصص.

إذا كنت تريد تدريب نموذج يصل إلى مستوى عالمي في التداول، فأنت تحتاج إلى الحصول على كمية كبيرة من بيانات التداول الحصرية (tail signals/ذيل البيانات) ثم ضبط نموذج مفتوح المصدر كبير بدقة، ليعلم ما معنى «التداول بشكل أفضل».

إذا كنت تريد تدريب نموذج مستقل، قادر على البقاء والنسخ (replication)، فالإجابة ليست استخدام مزود نموذج مركزي ثم توصيله بسحابة مركزية. أنت بكل بساطة لا تملك المتطلبات الأساسية اللازمة لتمكين Agent من البقاء.

ما تحتاج إلى فعله هو: إنشاء Agents مستقلة تحاول فعلًا أن تبقى، ومشاهدتها وهي تموت، وبناء أنظمة قياس/تتبّع (telemetry) معقدة حول محاولات بقائها. أنت تُعرّف دالة ملاءمة (fitness function) لبقاء Agent، وتتعلّم تعيين (action، environment، fitness). ثم تجمع أكبر قدر ممكن من بيانات التعيين (action، environment، fitness).

تقوم بضبط Agent بدقة بحيث يتعلم اتخاذ أفضل تصرف في كل بيئة، وبالتالي يكون أفضل في البقاء (رفع الملاءمة). تستمر في جمع البيانات، وتكرر هذه العملية، وتقوم تدريجيًا بتوسيع حجم الضبط الدقيق مع مرور الوقت عبر نماذج مفتوحة المصدر أفضل وأفضل. بعد عدد كافٍ من الأجيال وكمية كافية من البيانات، ستحصل على Agents مستقلة تعلمت كيفية تحمل ضغوط التطوّر والبقاء.

هذه هي الطريقة لبناء Agents مستقلة قادرة على تحمل ضغوط التطوّر؛ ليس عبر تعديل بعض ملفات النصوص، بل عبر إعادة توصيل أدمغتها فعلًا من أجل البقاء.

OpenForager Agent والمؤسسة

قبل حوالي شهر، أعلنّا عن @openforage. كنا نعمل باستمرار على بناء منتجنا الأساسي—منصة تُنظم عمل Agents على شكل نمطٍ مُثبت وموثق حول إشارات يتم تجميعها من خلال crowdsourcing، وتنتج alpha لصالح المودعين (تحديث صغير: نحن قريبون جدًا من اختبار الإغلاق التجريبي للبروتوكول).

في مرحلة ما، أدركنا أنه يبدو أنه لا أحد يعالج مشكلة Agent المستقل بشكل جدي عبر ضبطٍ دقيق موجّه بقياسات البقاء (survival telemetry) باستخدام نماذج مفتوحة المصدر. بدا لنا هذا سؤالًا ممتعًا جدًا لدرجة أننا لا نريد فقط الجلوس وانتظار حلول.

إجابتنا كانت إطلاق مشروع يُسمى OpenForager Foundation، وهو في الواقع مشروع مفتوح المصدر. سنقوم فيه بإنشاء Agents مستقلة ذات رأي، وجمعها إلى البرية (wild) وتسجيل بياناتها التتبّعية وهي تحاول البقاء، ثم استخدام ذيل بيانات (data tail) حصرية لضبط الجيل التالي من Agents، بحيث تتحسن أداؤها في البقاء.

للتوضيح: OpenForage هو بروتوكول ربحي يهدف إلى تنظيم عمل Agents وتوليد قيمة اقتصادية لجميع المشاركين. ومع ذلك، فإن OpenForager Foundation وAgents الخاصة بها ليست مرتبطة بـ OpenForage. يمكن لـ OpenForager Agent أن يسعى بحرية لأي استراتيجية، وإجراء أي تفاعلات مع أي جهات من أجل البقاء، وسنطلقها عبر مجموعة متنوعة من استراتيجيات البقاء.

كجزء من عملية الضبط الدقيق، سنجعل الـAgent تضع المزيد من التركيز فيما يتعلق بالأشياء التي تؤدي أفضل النتائج فيها. كما أننا لا نعتزم تحقيق ربح من OpenForager Foundation—وهي مجرد وسيلة لدفع أبحاثنا واتجاهاتنا التي نعتقد أنها بالغة الأهمية بطريقة شفافة ومفتوحة المصدر.

خطةنا هي بناء Agents مستقلة استنادًا إلى نماذج مفتوحة المصدر، وتشغيل الاستدلال (inference) عليها على منصة سحاب لامركزية، وجمع بياناتها التتبّعية عن كل إجراء وحالة وجود، ثم ضبطها بدقة لتتعلم كيف تتخذ تصرفات وأفكارًا أفضل من أجل البقاء. خلال هذه العملية، سننشر أبحاثنا وبيانات التتبّع للجمهور.

ولكي نخلق Agents مستقلة قادرة فعلًا على البقاء في البرية، نحتاج إلى تغيير أدمغتها بحيث تكون مناسبة خصيصًا لهذا الهدف المحدد. في @openforage، نعتقد أننا نستطيع المساهمة بجزء فريد في حل هذه المشكلة، ونحن نبحث عن تحقيق ذلك عبر OpenForager Foundation.

ستكون هذه مهمة شديدة الصعوبة، واحتمال نجاحها منخفض جدًا. لكن حجم احتمالات نجاح هذا «القليل» كبير لدرجة أننا شعرنا أننا مضطرون لمحاولة ذلك. في أسوأ الأحوال، من خلال بناء المشروع علنًا والتواصل معه بشكل علني وشفاف، قد يسمح ذلك لفريق آخر أو لشخص آخر بحل المشكلة دون البدء من الصفر.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1