أعلنت OpenAI رسميًا يوم الثلاثاء عن ChatGPT Images 2.0، وهو ما لا يعزز فقط بشكل كبير دقة توليد النص، بل ويرفع أيضًا جماليات التصميم في الملصقات وصور الأشخاص. كما قدم هذا النموذج لأول مرة «وضع التفكير»، ما يجعل إنشاء الصور يتمتع بقدرات البحث عبر الإنترنت وإخراج دفعات متعددة للصور، ليتقارب بشكل كامل مع سيناريوهات الاستخدام التجاري.
(أعلنت Canva عن تكامل عميق مع Claude، ما يتيح تحويل مسودات الذكاء الاصطناعي إلى منتجات تصميم نهائية)
من اختلاق القوائم إلى القوائم المثالية: تعلّم الذكاء الاصطناعي أخيرًا الإملاء
بالعودة إلى السنتين الماضيتين، كانت نقاط الضعف في نماذج توليد الصور بالذكاء الاصطناعي في مجال توليد النص شبه معروفة للجميع؛ فعندما يتضمن نصّ الإرشاد احتياجات إلى نص، غالبًا ما تمتلئ النتائج بأخطاء إملائية سخيفة بل وحتى اختلاق غير واقعي، ويزداد ذلك سوءًا في لغات غير الإنجليزية مثل الصينية واليابانية والكورية.
مخطط الملصقات الكورية في الإعلان الرسمي
واليوم، بات بإمكان ChatGPT Images 2.0 توليد ملصق إعلاني يمكن توفيره مباشرة للاستخدام من قبل المورّدين، مع نص واضح ودقيق. وفي السنوات الأخيرة، عمل الباحثون بنشاط على استكشاف بنيات جديدة مثل النماذج ذاتية الارتداد (Autoregressive Models) وغيرها، وقد تحسنت بشكل ملحوظ منطق التشغيل وفهم النص وقدرات التوليد والتحقق.
وضع التفكير متاح على الإنترنت: البحث الشبكي وتناسق التكوين في كل شيء
أكثر ترقية جوهرية في ChatGPT Images 2.0 هي «وضع التفكير (Thinking Capabilities)»، وهو متاح حاليًا للمستخدمين المدفوعين على ChatGPT Plus وPro والنسخة التجارية ونسخة المؤسسات. بعد تفعيله، يمكن للنموذج إجراء بحث فوري عبر الإنترنت للمساعدة في توليد الصور، كما يمكنه إنتاج توضيحات بصرية مقابلة اعتمادًا على الملفات التي يرفعها المستخدم، ويقوم أيضًا بإجراء مراجعة ذاتية وتحسين لمحتوى الصور قبل الإخراج الرسمي.
في التوليد على دفعات، يمكن لوضع التفكير—باستخدام موجه واحد فقط—إخراج ما يصل إلى ثماني صور في المرة الواحدة، كما يمكن الحفاظ على تمثيل متسق للشخصيات بين كل صورة، بالإضافة إلى أنماط الأشياء والأسلوب العام، وهو ما يجعله مناسبًا للّقطات القصصية في الرسوم الهزلية، وسلاسل الصور والنصوص على وسائل التواصل الاجتماعي، وحتى مخططات تخطيط المساحات في التصميم الداخلي لجميع المساحات.
مخطط لقطات القصص المصورة في الإعلان الرسمي
من ناحية الدقة، يدعم النموذج الجديد إخراجًا بحد أقصى 2K، كما تمت إضافة خيارات متعددة لنِسَب الأبعاد من 3:1 إلى 1:3، بما يلبي بشكل أكبر احتياجات الأعمال المختلفة.
تحسينات كبيرة للغات الآسيوية، والمستخدمون في الصين واليابان وكوريا على موعد مع الخير!
بالإضافة إلى الإنجليزية، أشارت OpenAI بشكل خاص إلى تحسينات كبيرة في النصوص الآسيوية في Images 2.0، حيث توجد تحسينات واضحة في اليابانية والكورية والصينية وغيرها.
كما أن مقال الاختبار الذي انتشر على نطاق واسع في المجتمع التقني الصيني قبل أيام قليلة أيد هذه المعلومة؛ إذ أجرى العديد من منشئي المحتوى على Zhihu مقارنات تجريبية بين GPT-Image-2 والمنافس Google Nano Banana Pro في ذلك الوقت، شملت سيناريوهات متعددة مثل تصميم الملصقات الصينية، وصور غلاف التجارة الإلكترونية، وواجهات وسائل التواصل الاجتماعي، والرسوم البيانية المرقمنة.
اختبار مقال Zhihu لـ GPT-Image 2.0
تظهر نتائج الاختبار أن GPT-Image-2 يتفوق بشكل واضح في جماليات الخط الصيني، وتسلسل التخطيط (مستويات التنسيق) والإحساس العام بالتصميم. كما أن أسلوب الملصقات التي تم توليدها يكون أقرب بكثير إلى المواد التجارية الحقيقية، وليس إخراجًا على نمط القوالب مع «إحساس واضح بالذكاء الاصطناعي». وأشار المقال أيضًا إلى أن GPT-Image-2 يظهر دقة أدق في إعادة إظهار (مثل لقطات شاشة من مشاهد الألعاب أو تطبيقات المراسلة)، وكذلك في استنساخ مشاهد الأشخاص الحقيقيين، من حيث التفاصيل.
إتاحة ChatGPT Images 2.0 بشكل كامل، وإطلاق API بالتزامن
حاليًا، منذ يوم الثلاثاء من هذا الأسبوع، يتم توفير ChatGPT Images 2.0 مجانًا لجميع مستخدمي ChatGPT وCodex لتقديم الوظائف الأساسية، بينما يمكن للمستخدمين المدفوعين فتح تأثيرات إخراج أكثر تقدمًا. وفي الوقت نفسه، قامت OpenAI أيضًا بإتاحة GPT-Image-2 API، ويعتمد التسعير على جودة الإخراج ودقة القرار وفقًا لتقسيمات الفئات، لتوفير مرونة التكامل لفرق الشركات والمطورين.
تجدر الإشارة إلى أن تاريخ توقف معرفة النموذج الجديد هو ديسمبر 2025، لذا قد تتأثر الدقة إلى حد ما عند تقديم موجهات توليد صور تتعلق بأحدث الأخبار الجارية. علاوة على ذلك، لا يمكن أن تصل سرعة توليد التكوينات المعقدة إلى مستوى سرعة الأسئلة والأجوبة النصية الفورية عادةً، لكن لا يزال الأمر يتطلب بضع دقائق فقط.
ظهرت هذه المقالة «ChatGPT Images 2.0: أطلقت! ارتفاع كبير في دقة توليد النص، وإنتاج ملصقات تسويقية بسهولة» لأول مرة على «لينك نيوز ABMedia».
مقالات ذات صلة
سام ألتمان يفصّل مفاوضات فاشلة مع إيلون ماسك بشأن سيطرة OpenAI، والدعوى مزمّعة في 27 أبريل
Brockman يتولى تكامل المنتجات في OpenAI؛ Sora تم تخفيض تصنيفها بسبب "تباعد الفروع التقنية"
شانغهاي تُكمل تسجيل خدمة واحدة للذكاء الاصطناعي التوليدي، ليصل الإجمالي التراكمي إلى 158
JPMorgan Chase ترفع هدفها لنهاية العام لمؤشر S&P 500 إلى 7,600، مستشهدة بطفرة استثمارات الذكاء الاصطناعي وتراجع المخاطر الجيوسياسية