
جهد عالمي لقياس حدود الذكاء الاصطناعي
اكتشف الباحثون وجود مشكلة عندما أظهرت التقييمات الشائعة أن أنظمة الذكاء الاصطناعي المتقدمة لم تعد تواجه صعوبة كافية في الاختبارات المعروفة، فالتقييم الشامل مثل اختبار فهم اللغة متعدد المهام الضخم (MMLU) الذي كان يعتبر سابقاً من أصعب الاختبارات لم يعد يشكل عائقاً حقيقياً أمام قياس قدرات هذه الأنظمة بشكل فعّال.
وفقاً لموقع TechXplore، سعى تحالف عالمي يضم نحو ألف باحث، من بينهم أستاذ من جامعة تكساس إيه أند أم، لسد هذه الفجوة باختبار مختلف كلياً: اختبار واسع النطاق، شديد التحدي ومتجذر في المعرفة البشرية المتخصصة إلى الحد الذي تفشل فيه نماذج الذكاء الاصطناعي الحالية باستمرار.
يقدّم الاختبار 2500 سؤال يغطي الرياضيات والعلوم الإنسانية والعلوم الطبيعية واللغات القديمة ومجالات فرعية متخصصة.
كتبت أسئلة مشروع HLE ومُراجعتها من خبراء في مجالاتهم حول العالم، مع الحرص على وجود جواب واحد واضح ومتحقق وقابل للتحقق، ولا يمكن حله فوراً عبر الإنترنت.
تستمد الأسئلة من مسائل أكاديمية متخصصة، بدءاً من ترجمة النقوش التدمرية القديمة، مروراً بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولاً إلى تحليل خصائص نطق اللغة العبرية التوراتية.
خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، وفي حال تمكن أي نظام من الإجابة عليه بشكل صحيح، يتم حذف السؤال، ليصبح الاختبار مخصصاً لاختبار قدرات الذكاء الاصطناعي المتقدمة وليس مجرد تسليم الإجابة.
أظهرت النتائج الأولية أن حتى النماذج الأكثر تطوراً واجهت صعوبات، حيث حقق GPT-40 نسبة 2.7%، وClaude 3.5 Sonnet نحو 4.1%، فيما لم يحقق نموذج o1 الرائد من OpenAI سوى 8%؛ بينما وصلت النماذج الأكثر تقدمًا، مثل Gemini 3.1 Pro وClaude Opus 4.6، إلى دقة بين 40% و50%.
يسعى الاختبار المسمى بـ”الاختبار الأخير للبشرية” (HLE) إلى أن يكون معياراً شفافاً وطويل الأمد لتقييم أنظمة الذكاء الاصطناعي المتقدمة، وكجزء من هذا الهدف أتاح الفريق نشر بعض أسئلة الاختبار للجمهور مع إبقاء معظمها مخفياً حتى لا تتمكن نماذج الذكاء الاصطناعي من حفظ الإجابات.