
جهد عالمي لقياس حدود الذكاء الاصطناعي
أظهر مشروع يقيس حدود الذكاء الاصطناعي أن الاختبارات التقليدية لم تعد كافية لاختبار قدرات أنظمة الذكاء الاصطناعي المتقدمة، فالتقييمات المعهودة باتت سهلة مقارنة بما وصلت إليه النماذج الحديثة.
يعمل اتحاد عالمي يضم نحو ألف باحث، من بينهم أستاذ من جامعة تكساس إيه آند إم، على ابتكار اختبار مختلف تماماً، واسع النطاق، عالي التحدي، ومتشبع بالمعرفة البشرية المتخصصة، حتى أن الأنظمة الحالية لا تستطيع حله بسهولة باستمرار.
يقدَّم الاختبار على هيئة تقييم من 2500 سؤال يغطي الرياضيات، والعلوم الإنسانية، والعلوم الطبيعية، واللغات القديمة، ومجالات فرعية متخصصة.
الاختبار النهائي للبشرية (HLE) وخصائصه
يُكتب سؤال الاختبار ومراجعته من قبل خبراء عالميين لضمان وجود إجابة واحدة واضحة لا لبس فيها وقابلة للتحقق، ولا يمكن حلها فوراً عبر الإنترنت.
تستمد الأسئلة من مسائل أكاديمية دقيقة، مثل ترجمة نقوش تدمرية قديمة، وتحديد تراكيب تشريحية دقيقة في الطيور، وتحليل خصائص نطق اللغة العبرية التوراتية.
خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي، وفي حال جاءت الإجابة الصحيحة، يُحذف السؤال، ليصبح الاختبار مصمماً لتجاوز قدرات الذكاء الاصطناعي الحالية.
أظهرت النتائج الأولية أن حتى أكثر النماذج تطوراً تواجه صعوبة، حيث حقق GPT-40 نسبة 2.7%، ووصل Claude 3.5 Sonnet إلى 4.1%، ولم يصل نموذج o1 الرائد من OpenAI إلى 8%، بينما بلغ معدل دقة النماذج الأكثر تقدماً مثل Gemini 3.1 Pro وClaude Opus 4.6 نحو 40–50%.
يهدف الاختبار الذي سمّي بـ”الاختبار الأخير للبشرية” إلى أن يكون معياراً شفافاً وطويل الأجل لتقييم أنظمة الذكاء الاصطناعي المتقدمة، وكجزء من هذه المهمة، يتيح الفريق بعض أسئلة الاختبار للجمهور مع إبقاء معظمها مخفياً حتى لا يتمكن النموذج من حفظ الإجابات وتكرارها.