GPT-5 فشل في اختبارات البرمجة: لماذا ألتزم بـ GPT-4o الآن
GPT-5 في البرمجة: تقييم صادق ومخيب للآمال
لقد اختبرتُ قدرات البرمجة في GPT-5، وكانت النتائج مخيبة للآمال لدرجة أنني سأظل أعتمد على GPT-4o في الوقت الحالي. في تقييمي الأخير لمهارات البرمجة، أظهر GPT-5 أداءً ضعيفًا بشكل ملحوظ، حيث قدّم مكونات إضافية معطوبة، ونصوصًا برمجية مليئة بالأخطاء، وإجابات غير صحيحة بثقة زائدة، مما قد يعرقل المشاريع التي لا تخضع لإشراف بشري دقيق. إليك ما تحتاج إلى معرفته قبل الاعتماد عليه.

فشل GPT-5، الذي يُعد النموذج الرائد الجديد من OpenAI، في نصف اختبارات البرمجة التي أجريتها، في حين كانت الإصدارات السابقة تحقق نتائج شبه مثالية. لحسن الحظ، بعد أن أتاحت OpenAI خيار العودة إلى النماذج اللغوية الكبيرة الأخرى (LLMs)، أصبحت هناك بدائل موثوقة متاحة.

لقد أصبح GPT-5 متاحًا، وهو حديث الساعة في العالم التقني، ولكنه يأتي مع بعض المشاكل الجوهرية. فقد فشل النموذج في نصف اختبارات البرمجة التي صممتها، مسجلاً أسوأ أداء لنموذج رائد من OpenAI في اختباراتي على الإطلاق.

يتوفر أيضًا تقييم لأفضل أدوات الذكاء الاصطناعي للبرمجة في عام 2025 (وما يجب تجنبه). قبل الغوص في التفاصيل، لنتوقف عند ميزة جديدة غريبة بعض الشيء، وهي زر "التعديل" الذي يظهر أعلى مخرجات الكود التي يتم إنشاؤها. عند النقر عليه، يتم نقلك إلى محرر أكواد مدمج، حيث قمتُ باستبدال حقل المؤلف مباشرةً في نتائج ChatGPT. بدا الأمر واعدًا، لكنه في النهاية لم يكن له أي فائدة عملية. فعند إغلاق المحرر، سألني إذا كنت أرغب في حفظ التغييرات، وهو ما فعلته، لتظهر لي بعدها رسالة غير مفيدة. لم أتمكن من العودة إلى جلستي الأصلية، واضطررت إلى إعادة إرسال طلبي الأصلي مرة أخرى، والسماح لـ GPT-5 بتنفيذ المهمة مرة ثانية. لكن انتظر، هناك المزيد. دعنا نتعمق في نتائج اختباراتي…
١. كتابة مكون إضافي لـ WordPress

كان هذا أول اختبار حقيقي أجريته لتقييم قدرة أي ذكاء اصطناعي على البرمجة. وهو نفس الاختبار الذي منحني شعور "العالم على وشك التغير" عندما نفذته لأول مرة باستخدام GPT-3.5، النموذج الأقدم الذي كان يُعرف بقدراته القوية في مهام البرمجة.
أدت الاختبارات اللاحقة، التي استخدمت نفس الطلب مع نماذج ذكاء اصطناعي مختلفة، إلى نتائج متباينة. بعض النماذج كانت رائعة، وبعضها الآخر لم يكن كذلك، في حين تحسنت نماذج أخرى، مثل تلك من Microsoft و Google، بمرور الوقت.
اقرأ أيضًا: كيف أختبر قدرة روبوت الدردشة بالذكاء الاصطناعي على البرمجة – ويمكنك ذلك أيضًا.
لطالما كان ChatGPT هو المعيار الذهبي لهذا الاختبار منذ بدايته، وهو ما يجعل نتائج GPT-5 أكثر إثارة للقلق. كانت تجربة البرمجة الفعلية مع GPT-5 ناجحة بشكل جزئي فقط. في البداية، أنشأ النموذج كتلة برمجية واحدة تمكنتُ من لصقها في ملف وتشغيله، حيث وفّر واجهة المستخدم المطلوبة للمكون الإضافي. وعندما قمت بلصق أسماء الاختبار، قام بتحديث عدد الأسطر ديناميكيًا، على الرغم من أنه استخدم كلمة "سطر" للمفرد والجمع. ولكن عند اختبار الوظيفة الأساسية بالضغط على زر "Randomize"، فشل المكون الإضافي في العمل كما هو متوقع، وبدلاً من ذلك، أعاد توجيهي إلى صفحة `tools.php` بشكل غير صحيح. هذا السلوك المفاجئ يمثل تراجعًا كبيرًا، حيث لم تواجه الإصدارات السابقة مثل GPT-3.5، GPT-4، أو GPT-4o أي مشكلة في هذا الاختبار الأساسي لتطوير ووردبريس. إن فشل GPT-5، الذي يُفترض أنه النموذج الأكثر تطورًا من OpenAI، في هذه المرحلة الأولية كان محبطًا للغاية.
ثم أعطيت GPT-5 هذا الطلب: "عندما أنقر على Randomize، يتم نقلي إلى http://testsite.local/wp-admin/tools.php. لا أحصل على قائمة بالنتائج العشوائية. هل يمكنك إصلاح ذلك؟" كانت النتيجة عبارة عن سطر واحد لتصحيح الخطأ، وهو نهج لا أفضله لأنه يتطلب من المستخدم البحث يدويًا في الكود واستبدال السطر دون ارتكاب أخطاء. لذا، طلبت منه مكونًا إضافيًا كاملاً. هذه المرة، أعطاني النص الكامل للمكون الإضافي لنسخه ولصقه، ونجح في العمل. لقد قام بترتيب الأسطر عشوائيًا وفصل التكرارات كما طُلب منه. أخيرًا.
اقرأ أيضًا: وجدت 5 أدوات للكشف عن محتوى الذكاء الاصطناعي يمكنها تحديد نص AI بشكل صحيح بنسبة 100% من الوقت.

أنا آسف يا OpenAI، لكن يجب أن أرسبك في هذا الاختبار. كنت ستنجح لو كان الخطأ الوحيد هو استخدام صيغة المفرد بدلاً من الجمع، لكن حقيقة أنه قدّم مكونًا إضافيًا لا يعمل من المحاولة الأولى تعتبر فشلاً، حتى لو تمكن من إصلاحه في المحاولة الثانية. بغض النظر عن كيفية تبرير ذلك، هذه خطوة إلى الوراء.
٢. إعادة كتابة دالة سلسلة (string function)

أظهر GPT-5 أداءً جيدًا في هذا الاختبار. لقد قدّم نتيجة بسيطة ومباشرة لأنه لم يقم بأي فحص إضافي للأخطاء، مثل التحقق من الإدخالات غير النصية، أو المسافات البيضاء الزائدة، أو فواصل الآلاف، أو رموز العملات. لكن هذا لم يكن مطلوبًا في الطلب الأساسي. لقد طلبت منه إعادة كتابة دالة محددة، والتي لم تكن تحتوي أصلاً على أي فحص للأخطاء. قام GPT-5 بتنفيذ ما طُلب منه بالضبط دون إضافات غير ضرورية، وهو أمر جيد، لأنه لا يمكنه معرفة ما إذا كان الكود السابق للدالة قد أجرى هذا التحقق بالفعل.
لقد اجتاز GPT-5 هذا الاختبار.
٣. العثور على خطأ برمجي معقد
جاء هذا الاختبار من تجربة شخصية كنت أعاني فيها من خطأ غير واضح في الكود الخاص بي. دون الخوض في تفاصيل عمل إطار WordPress، فإن الحل الواضح لم يكن هو الحل الصحيح. يتطلب حل المشكلة معرفة متخصصة إلى حد ما بكيفية تمرير "مرشحات" ووردبريس لمعلوماتها، وهو ما شكّل عقبة أمام العديد من النماذج اللغوية الكبيرة.
مهم: خيبة الأمل من الذكاء الاصطناعي التوليدي تلوح في الأفق، وفقًا لـ Gartner Hype Cycle، وهو نموذج يصف مراحل نضج التقنيات الجديدة من "ذروة التوقعات المبالغ فيها" إلى "هوة خيبة الأمل" ثم "منحدر التنوير" و"هضبة الإنتاجية".

مع ذلك، تمكن GPT-5، تمامًا مثل GPT-4 وGPT-4o قبله، من فهم المشكلة وقدم حلاً واضحًا وصحيحًا.
لقد اجتاز GPT-5 هذا الاختبار.
٤. كتابة نص برمجي
يطلب هذا الاختبار من الذكاء الاصطناعي دمج أداة برمجة نصية غير معروفة نسبيًا لنظام macOS تُدعى Keyboard Maestro، وهي أداة قوية لأتمتة المهام، مع لغة البرمجة النصية AppleScript من Apple، وسلوك البرمجة النصية لمتصفح Chrome. يُعد هذا الاختبار مقياسًا حقيقيًا لمدى اتساع معرفة الذكاء الاصطناعي، وفهمه لكيفية بناء صفحات الويب، وقدرته على كتابة كود يعمل عبر ثلاث بيئات مترابطة.
لقد فشل عدد كبير من نماذج الذكاء الاصطناعي في هذا الاختبار، وكانت نقطة الفشل عادةً هي نقص المعرفة بأداة Keyboard Maestro. لم يكن GPT-3.5 يعرف عنها شيئًا، لكن ChatGPT كان يجتاز هذا الاختبار بنجاح منذ إصدار GPT-4. حتى الآن.
من أين نبدأ؟ الخبر السار هو أن GPT-5 تعامل مع جزء Keyboard Maestro من المشكلة بشكل جيد. لكنه أخطأ في برمجة AppleScript بشكل كارثي، حيث اخترع خاصية غير موجودة، مما يمثل حالة كلاسيكية يقدم فيها الذكاء الاصطناعي إجابة خاطئة تمامًا بثقة عمياء.
اقرأ أيضًا: يأتي ChatGPT الآن بإعدادات مسبقة للشخصية – وترقيات أخرى ربما فاتتك.
لغة AppleScript غير حساسة لحالة الأحرف بشكل افتراضي. لجعلها حساسة لحالة الأحرف، يجب استخدام كتلة `considering case`. ولهذا السبب ظهرت رسالة الخطأ التالية. السبب في أن رسالة الخطأ أشارت إلى عنوان إحدى مقالاتي هو أن هذه كانت النافذة الأمامية في Chrome، حيث تتحقق الدالة من النافذة الأمامية وتنفذ إجراءات بناءً على العنوان. لكن سوء فهم كيفية التعامل مع حالة الأحرف لم يكن الخطأ الوحيد في كود AppleScript الذي أنشأه GPT-5؛ فقد أشار أيضًا إلى متغير باسم `searchTerm` دون تعريفه أولاً، وهي ممارسة تؤدي إلى أخطاء في أي لغة برمجة تقريبًا.
فشل، فشل، فشل.
لقد تحدث الإنترنت
يبدو أن OpenAI عانت من نفس الغطرسة التي يُظهرها الذكاء الاصطناعي الخاص بها أحيانًا. لقد نقلت جميع المستخدمين بثقة إلى GPT-5 وألغت إمكانية العودة إلى GPT-4o. أنا أدفع 20 دولارًا شهريًا لحساب ChatGPT Plus، ويوم الجمعة، لم أتمكن من العودة إلى GPT-4o لإنجاز أعمال البرمجة، وكذلك لم يتمكن أي شخص آخر.
ومع ذلك، أثار هذا القرار رد فعل قويًا من المستخدمين. وبكلمة "قوي"، أعني الإنترنت بأكمله. لذا، بحلول يوم السبت، أضاف ChatGPT خيارًا جديدًا. للوصول إليه، انتقل إلى إعدادات ChatGPT وقم بتفعيل خيار "إظهار النماذج القديمة". بعد ذلك، يمكنك ببساطة فتح قائمة النماذج واختيار النموذج الذي تريده. ملاحظة: هذا الخيار متاح فقط للمشتركين في الخطط المدفوعة. إذا كنت تستخدم ChatGPT مجانًا، فستحصل على ما يُمنح لك.

منذ أن بدأ هذا الهوس بالذكاء الاصطناعي التوليدي في بداية عام 2023، كان ChatGPT هو المعيار الذهبي لأدوات البرمجة، على الأقل وفقًا لاختباراتي.
قد يهمك: مايكروسوفت تطرح GPT-4o عبر مجموعة Copilot الخاصة بها – إليك أين ستجده.
الآن؟ لست متأكدًا حقًا. لقد مر يوم واحد فقط على إصدار GPT-5، ومن المحتمل أن تتحسن نتائجه بمرور الوقت. لكن في الوقت الحالي، سأظل أعتمد على GPT-4o للبرمجة، على الرغم من أنني أقدر قدرات التفكير العميق في GPT-5. ماذا عنك؟ هل جربت GPT-5 لمهام البرمجة حتى الآن؟ هل كان أداؤه أفضل أم أسوأ من الإصدارات السابقة مثل GPT-4o؟ هل تمكنت من الحصول على كود يعمل من المحاولة الأولى، أم اضطررت لتوجيهه نحو الإصلاحات؟ هل ستستخدم GPT-5 للبرمجة أم ستلتزم بالنماذج الأقدم؟ شاركنا رأيك في التعليقات أدناه.

يمكنك متابعة تحديثاتي اليومية للمشاريع على وسائل التواصل الاجتماعي. تأكد من الاشتراك في رسالتي الإخبارية الأسبوعية، ومتابعتي على تويتر/إكس على @DavidGewirtz، وعلى فيسبوك على Facebook.com/DavidGewirtz، وعلى إنستجرام على Instagram.com/DavidGewirtz، وعلى بلوسكاي على @DavidGewirtz.com، وعلى يوتيوب على YouTube.com/DavidGewirtzTV.
مميز
- فصل هذه الأجهزة المنزلية السبعة الشائعة ساعد في تقليل فواتير الكهرباء.
- لن يقوم Microsoft Authenticator بإدارة كلمات المرور الخاصة بك بعد الآن – أو معظم مفاتيح المرور.
- نعم، أنت بحاجة إلى جدار حماية على Linux – إليك السبب وأي واحد تستخدمه.
- هل يستحق جهاز MacBook المجدد الشراء؟ لقد أجريت الحسابات، وإليك نصيحتي للشراء.