أعلنت DeepSeek في أكتوبر الماضي عن تقنية DeepSeek-OCR التي تعتبر طريقة جديدة لمعالجة المستندات الكبيرة والمعقدة عبر تمثيل النص بصريًا كوسيط ضغط، ما يفترض أن يقلل عدد الرموز النصية بمعدل يتراوح بين 7 و20 مرة.
أظهرت دراسة مستقلة أُجريت في جامعة توهوكو اليابانية والأكاديمية الصينية للعلوم نتائج متضاربة، إذ لم يظهر الأداء اتساقًا واعتمد بشكل كبير على الأسبقيات اللغوية المستمدة من كميات هائلة من النصوص بدل الفهم البصري الحقيقي.
وصف الباحثون مؤشرات الأداء التي أُعلنت عنها DeepSeek بأنها مضللة، مشيرين إلى أن الدقة في الإجابة عن الأسئلة البصرية انخفضت إلى نحو 20% عندما أُضيف نص إضافي يؤثر في الاستدلال، مقارنة بنسب تتجاوز 90% لدى نماذج ذكاء اصطناعي تقليدية.
أزمة السياق الطويل ما زالت قائمة
أوضح الباحثون أن نماذج الذكاء الاصطناعي لا تزال تواجه قيودًا جوهرية في معالجة المستندات الطويلة أو الحوارات الممتدة، وهي مشكلة لا يزال البحث عن حلول لها مستمرًا على مستوى العالم، ما يجعل وجود حل سحري أمرًا غير مؤكد.
آراء متباينة في الوسط العلمي
لم تعلق DeepSeek فورًا على الطلب للتعليق، وبينما يرى بعض خبراء علوم الحاسوب أن التقنية ليست فاشلة بل سلاحًا ذا حدين، يقول هؤلاء إن الاعتماد على المعرفة المكتسبة قد يفيد في مخطوطات غير واضحة، لكنه قد يصبح نقطة ضعف عند قراءة نص مطبوع وواضح.
مستقبل تقنيات قراءة النصوص الطويلة
تؤكد هذه الدراسة أن السباق لتحسين قدرات الذكاء الاصطناعي في فهم النصوص الطويلة ما يزال مفتوحًا، وأنه لا توجد حتى الآن حلول سحرية تناسب جميع الحالات، ما يدفع الباحثين إلى اعتماد استراتيجيات بديلة أكثر موثوقية.
