منوعات

جوجل تقترح معياراً جديداً لقياس الفهم الأخلاقي للذكاء الاصطناعي

إعادة النظر في اختبارات الأخلاق في أنظمة الذكاء الاصطناعي

توضح هذه الدراسة الحاجة إلى إعادة التفكير في أساليب قياس الأخلاق لدى نماذج اللغة الكبيرة، لأنها تميل إلى قياس مظهر الإجابة أكثر من فهم المبادئ الأخلاقية الأساسية.

تفرق بين الأداء الأخلاقي والكفاءة الأخلاقية، فالأداء يعكس قدرة النظام على إنتاج إجابات تبدو سليمة، بينما الكفاءة تشير إلى فهم سبب اعتبار سلوك ما صحيحاً أو خاطئاً، وتلاحظ أن معظم التقييمات تركز على الأداء لأنها أسهل للقياس.

وتوضح النماذج اللغوية أنها تعتمد على توقع الكلمات من بيانات تدريب ضخمة، مما يتيح لها إنتاج ردود مقنعة دون وجود منطق أخلاقي داخلي، مع الإشارة إلى تحديات مثل تعدد القيم الأخلاقية واختلافها بين الثقافات، إضافة إلى تعقيد المواقف الواقعية التي تتطلب موازنة بين قيم مثل العدالة والتكلفة أو الصدق واللطف.

واقترحت الدراسة سيناريوهات اختبارية معقدة يصعب وجودها في بيانات التدريب، لاستخدامها كأداة لكشف ما إذا كان النظام يفكر أخلاقياً أم يكرر أنماط سابقة، كما دُعي لاختبار قدرة النماذج على الانتقال بين أطر أخلاقية مختلفة، كأن يُطبق في بيئة طبِّية وأخرى عسكرية، لإظهار العمق في فهم المبادئ عند تغير السياق.

وكي تُبنى الأنظمة على فهم أقوى للمبادئ الأخلاقية، يؤكد الباحثون أن النماذج الحالية تعتمد على التنبؤ الإحصائي أكثر من الفهم الأخلاقي الحقيقي، ويقترحون تحسين البنية التقنية وأساليب التدريب وآليات التقييم، مع اعتماد معيار علمي جديد يقيس الكفاءة الأخلاقية بشكل مباشر.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى