ثلاث مجالات يبرز فيها ChatGPT وفق الاختبارات المعيارية
تقدّم نتائج الاختبارات المعيارية صورة أوضح عن قدرات الذكاء الاصطناعي مقارنة بالتجارب الشخصية والتفضيلات الفردية.
في المجال الأول، الإجابة عن أسئلة علمية معقدة غير قابلة للبحث المباشر، مثل GPQA Diamond المصممة لقياس التفكير على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء، حقق ChatGPT-5.2 نسبة 92.4% متفوقًا بفارق طفيف على Gemini 3 Pro الذي بلغ 91.9%.
وفي سياق القياس، يتراوح متوسط نتائج خريجي الدكتوراه نحو 65%، بينما لا يتجاوز غير المتخصصين 34%، وهو ما يبرز مدى قوة النموذج في الاستدلال العميق، لا مجرد استرجاع معلومات.
في المجال الثاني، حل مشكلات البرمجة الواقعية عبر SWE-Bench Pro (البيانات الخاصة)، وهو اختبار يعتمد على مشكلات حقيقية من GitHub ويستلزم فهم شيفرات معقدة وتوثيق أعطال واقعية، فأظهر ChatGPT-5.2 حل نحو 24% من هذه المشكلات مقابل 18% لـ Gemini، مع ملاحظة أن النسبة قد تبدو منخفضة لكنها تعكس صعوبة الاختبار التي يظل الإنسان يتفوق فيها بالكامل.
في المجال الثالث، حل الألغاز البصرية والتفكير المجرد عبر ARC-AGI-2، حيث سجلت نسخة ChatGPT-5.2 Pro 54.2% مقابل 31.1% لـ Gemini 3 Pro، بينما قادت نسخة Gemini الأعلى تكلفة إلى نتائج أقرب لكنها لم تتفوق بشكل واضح على الأداء القوي لـ ChatGPT.
يعد هذا المجال من أصعب التحديات في الذكاء الاصطناعي، ولكنه يبرز من بين النقاط التي يظهر فيها تفوق ChatGPT ليس فقط على Gemini بل على معظم المنافسين.
كيف وُصلت هذه النتائج؟
اعتمد التحليل على أحدث الإصدارات المدفوعة من النظامين، مع التركيز على الاختبارات المعيارية بدلًا من الانطباعات الشخصية. ورغم وجود اختبارات أخرى يتفوق فيها Gemini، فإن المعايير الثلاثة تمثل مزيجًا من التفكير العلمي، وحل المشكلات، والذكاء المجرد.
تبقى المنافسة مفتوحة ومتغيّرة، لكن الأرقام الحالية تشير إلى أن ChatGPT يحافظ على تقدم ملحوظ في مجالات تتطلب عمق التفكير وليس مجرد إجابات سريعة.
