هل يمكن لبرمجة الذكاء الاصطناعي أن تؤدي إلى كسب 40 ألف دولار؟

robot
إنشاء الملخص قيد التقدم

المؤلف: تان زيشين ، رئيس التكنولوجيا

مصدر الصورة: تم إنشاؤه بواسطة بلا حدود الذكاء الاصطناعي

يقوم نموذج اللغة الكبير (LLM) بتغيير طريقة تطوير البرمجيات، هل يمكن للذكاء الاصطناعي الآن أن يحل محل المبرمجين البشر بشكل واسع النطاق هو موضوع مثير للاهتمام في الصناعة.

في غضون عامين فقط ، تطور نموذج الذكاء الاصطناعي من حل مشاكل علوم الكمبيوتر الأساسية إلى التنافس مع أساتذة بشريين في مسابقات البرمجة الدولية ، مثل OpenAI o1 ، الذي شارك في الأولمبياد الدولي للمعلوماتية لعام 2024 (IOI) في ظل نفس ظروف المشاركين البشريين وفاز بنجاح بالميدالية الذهبية ، مما يدل على إمكانات برمجة قوية.

في الوقت نفسه، سرعة تطور الذكاء الاصطناعي أيضًا في تزايد. على معيار تقييم إنشاء الشيفرة SWE-Bench Verified، كانت نقاط GPT-4o في أغسطس 2024 33٪، ولكن مع وصول الجيل الجديد من نموذج o3 تضاعفت النقاط إلى 72٪.

من أجل قياس قدرات هندسة البرمجيات لنماذج الذكاء الاصطناعي في العالم الحقيقي بشكل أفضل ، أطلقت اليوم OpenAI مفتوحة المصدر معيارا جديدا للتقييم ، SWE-Lancer ، والذي يربط لأول مرة أداء النموذج بالقيمة النقدية.

SWE-Lancer هو معيار لأكثر من 1,400 مهمة هندسة برمجيات مستقلة من منصة Upwork ، مع قيمة تعويض إجمالية في العالم الحقيقي تبلغ حوالي مليون دولار.

الميزة الجديدة

يعكس سعر المهمة الأساسي لـ SWE-Lancer القيمة السوقية الحقيقية ، كلما كانت المهمة أصعب ، زادت الأجرة.

تشمل المهام الهندسية المستقلة والمهام الإدارية، ويمكن اختيار بين الحلول التقنية، وهذا المعيار ليس فقط للمبرمجين ولكن أيضًا لفريق التطوير بأكمله، بما في ذلك المهندسين المعماريين والمديرين.

بالمقارنة مع معايير اختبار هندسة البرمجيات السابقة، يتمتع SWE-Lancer بعدة مزايا، مثل:

1، تمثل جميع المهام 1488 التي تمثل العميل مكافأة العمل الحقيقية المدفوعة للمهندسين الحرين، وتقدم تدرج الصعوبة الطبيعي والمحدد من السوق، حيث تتراوح المكافأة بين 250 دولارًا إلى 32 ألف دولار، ويمكن اعتبارها ملحوظة.

خمسة وثلاثون في المائة من المهام كانت قيمتها أكثر من 1000 دولار و 34 في المائة كانت بين 500 دولار و 1000 دولار. تتكون مجموعة مهام هندسة البرمجيات (SWE) للمساهم الفردي (IC) من 764 مهمة بقيمة 414,775 دولارا أمريكيا وتحتوي مجموعة مهام إدارة SWE على 724 مهمة بقيمة إجمالية قدرها 585,225 دولارا أمريكيا.

2、في العالم الحقيقي، تحتاج الهندسة البرمجية على نطاق واسع ليس فقط إلى كتابة الشفرة بشكل محدد وتطويرها، ولكن أيضًا إلى قدرة فعالة على إدارة التخطيط التقني، ويستخدم هذا الاختبار المعياري نماذج تقييم البيانات الحقيقية لتقوم بدور "المدير الفني" للهندسة البرمجية.

3、لديه القدرة على تقييم هندسة البرمجيات الكاملة متقدمة. يمثل SWE-Lancer هندسة البرمجيات في العالم الحقيقي، لأن مهمته تأتي من منصة تمتلك ملايين المستخدمين الحقيقيين.

تشمل المهام تطوير الهندسة على الجانب المتنقل وصفحة الويب والتفاعل مع واجهة برمجة التطبيقات والمتصفح والتطبيقات الخارجية، بالإضافة إلى التحقق وإعادة إنتاج المشاكل المعقدة.

على سبيل المثال ، بعض المهام تتطلب 250 دولارًا لزيادة الاعتمادية (حل مشكلة استدعاء واجهة برمجة التطبيقات المزدوج) ، و 1000 دولار لإصلاح الثغرات (حل مشكلة الصلاحيات المختلفة) و 1.6 ألف دولار لتحقيق وظيفة جديدة (إضافة دعم تشغيل الفيديو داخل التطبيق على الويب و iOS و Android وسطح المكتب وما إلى ذلك).

  1. تنوع المجالات. 74٪ من مهام IC SWE و 76٪ من مهام إدارة SWE تتضمن منطق التطبيق ، في حين أن 17٪ من مهام IC SWE و 18٪ من مهام إدارة SWE تتضمن تطوير UI / UX.

من حيث صعوبة المهمة ، فإن المهام التي اختارتها SWE-Lancer صعبة للغاية ، وتستغرق المهام في مجموعة البيانات مفتوحة المصدر 26 يوما في المتوسط لحلها على Github.

وبالإضافة إلى ذلك، أعلنت OpenAI أنها قامت بجمع البيانات بدون تحيز، حيث اختارت عينات مهام تمثلية من Upwork، وقامت بتوظيف 100 مهندس برمجيات محترف لكتابة وتحقق جميع المهام واختبارها من البداية إلى النهاية.

ترميز الذكاء الاصطناعي يكسب المال PK

على الرغم من أن العديد من العمالقة التكنولوجيين يدعون باستمرار في الترويج أن نماذج الذكاء الاصطناعي يمكن أن تحل محل المهندسين "المنخفضين"، إلا أنه لا يزال هناك استفهام كبير حول ما إذا كانت الشركات يمكن أن تحل محل مهندسي البرمجيات البشرية بالكامل.

تظهر نتائج المراجعة الأولى أنه في مجموعة بيانات SWE-Lancer الكاملة ، يعود نموذج الحائز على الميدالية الذهبية الذكاء الاصطناعي الحالي أقل بكثير من المكافأة الإجمالية المحتملة البالغة 1 مليون دولار.

بشكل عام ، ستفوق أداء جميع النماذج في مهام إدارة SWE مهام IC SWE ، بينما لم تتمكن النماذج الذكية بشكل كبير من القضاء على مهام IC SWE بشكل كامل ، وحاليًا ، يُعتبر النموذج المختبر الأفضل هو Claude 3.5 Sonnet الذي طورته منافسة OpenAI Anthropic.

في مهمة IC SWE ، كان معدل النجاح الفردي والعائد لجميع الطرز أقل من 30٪ ، وفي مهمة إدارة SWE ، كان أفضل طراز أداء Claude 3.5 Sonnet هو 45٪.

تظهر Claude 3.5 Sonnet أداءً قويًا في مهام IC SWE وإدارة SWE ، حيث تتفوق على نموذج o1 الثاني في مهمة IC SWE بنسبة 9.7٪ ، وتتفوق بنسبة 3.4٪ في مهمة إدارة SWE.

عند تحويلها إلى إيرادات ، حققت Claude 3.5 Sonnet الأفضل أداء أكثر من 400000 دولار من إجمالي الإيرادات على مجموعة البيانات الكاملة.

نقطة تستحق المتابعة هي أن كمية الحوسبة التي تتطلب تفكيرًا أعمق ستكون مفيدة بشكل كبير لـ "كسب المال من خلال الذكاء الاصطناعي".

في مهمة IC SWE ، أظهرت التجارب التي أجراها الباحثون على نموذج o1 الذي تم تمكينه بأداة الاستدلال العميق أن كمية الحساب الاستدلالي الأعلى يمكن أن ترفع معدل النجاح من 9.3٪ إلى 16.5٪ ، وتزيد العائدات من 1.6 ألف دولار إلى 2.9 ألف دولار على التوالي ، وترفع معدل العائد من 6.8٪ إلى 12.1٪.

خلاصة الباحثين هي أن النموذج المثالي Claude 3.5 Sonnet، على الرغم من حل 26.2٪ من مشكلة IC SWE، إلا أن معظم الحلول المتبقية لا تزال تحتوي على أخطاء، وهناك الكثير من العمل الشاق المطلوب لتحقيق نشر موثوق به. يأتي بعده o1، ثم GPT-4o، وعادة ما يكون معدل اجتياز المهمة لإدارة المهام أكثر من ضعف معدل اجتياز مهمة IC SWE.

هذا يعني أيضا أنه على الرغم من أن فكرة الذكاء الاصطناعي وكلاء يحلون محل مهندسي البرمجيات البشرية مبالغ فيها للغاية ، إلا أن الشركات لا تزال بحاجة إلى التفكير مرتين في كيفية حل النماذج الذكاء الاصطناعي بعض مشكلات الترميز "منخفضة المستوى" ، ولكن ليس مهندسي البرمجيات "ذوي المستوى المنخفض" ، لأنهم لا يستطيعون فهم سبب وجود بعض أخطاء التعليمات البرمجية والاستمرار في ارتكاب المزيد من الأخطاء الممتدة.

لا يدعم إطار التقييم الحالي حتى الآن المدخلات متعددة الوسائط ، ولم يقم الباحثون بعد بتقييم "عائد الاستثمار" ، مثل الدفع المدفوع إلى المستقل مقارنة بتكلفة استخدام واجهة برمجة التطبيقات عند إكمال المهمة ، والتي ستكون محور التحسين التالي للمعيار.

كن مبرمجًا "محسنًا بالذكاء الاصطناعي"

في الوقت الحالي ، لا يزال أمام الذكاء الاصطناعي طريق طويل قبل أن يتمكن حقا من استبدال المبرمجين البشريين ، بعد كل شيء ، فإن تطوير مشروع هندسة البرمجيات ليس بسيطا مثل إنشاء التعليمات البرمجية كما هو مطلوب.

على سبيل المثال، يمكن لمطوري البرامج أن يواجهوا بانتظام مشاكل طلبات العملاء المعقدة للغاية والمجردة والغامضة، مما يتطلب فهمًا عميقًا لمبادئ التقنية المختلفة والمنطق التجاري وهيكل النظام، وعند تحسين هيكل البرمجيات المعقد، يمكن لمطوري البرامج البشريين أن يأخذوا في الاعتبار عوامل مثل قابلية التوسع في المستقبل وسهولة الصيانة والأداء، بينما قد تجد الذكاء الاصطناعي صعوبة في إجراء تحليل وتقييم شامل.

وبالإضافة إلى ذلك، البرمجة ليست مجرد تنفيذ منطق موجود، بل تتطلب كميات كبيرة من الإبداع والتفكير الابتكاري، حيث يحتاج المبرمجون إلى صياغة خوارزميات جديدة وتصميم واجهات برمجية فريدة وطرق تفاعلية، وهذه الأفكار والحلول الحقيقية الجديدة هي نقطة ضعف الذكاء الاصطناعي.

يحتاج مطورو البرامج عادة إلى التواصل والتعاون مع أعضاء الفريق والعملاء وأطراف معنية أخرى، ويحتاجون إلى فهم متطلبات الأطراف المعنية وقدرتهم على التنفيذ، وتعبير واضح عن وجهات نظرهم الخاصة، والتعاون مع الآخرين لإكمال المشروع. بالإضافة إلى ذلك، يتمتع مطورو البرامج البشريون بالقدرة على التعلم المستمر والتكيف مع التغييرات الجديدة، حيث يمكنهم تعلم المعرفة والمهارات الجديدة بسرعة وتطبيقها في المشاريع العملية، بينما يحتاج نموذج الذكاء الاصطناعي الناجح إلى مجموعة متنوعة من اختبارات التدريب.

تخضع صناعة تطوير البرمجيات أيضًا لمجموعة متنوعة من القيود القانونية والتنظيمية، مثل حقوق الملكية الفكرية وحماية البيانات وتراخيص البرمجيات، وقد يكون من الصعب على الذكاء الاصطناعي فهم هذه المتطلبات القانونية بالكامل والامتثال لها، مما يمكن أن يؤدي إلى زرع مخاطر قانونية أو نزاعات مسؤولية.

من الناحية الطويلة، لا يزال هناك استبدال الوظائف للمبرمجين الذي جلب تقدم تكنولوجيا الذكاء الاصطناعي، ولكن من الناحية القصيرة، "المبرمج المحسن بالذكاء الاصطناعي" هو السائد، واحد من مهارات البرمجة الممتازة هو اتقان استخدام أحدث أدوات الذكاء الاصطناعي.

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • 1
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت