ما هي تقنية DeepSeek-OCR؟
تكشف DeepSeek عن التقنية في أكتوبر الماضي، وتصفها بأنها قادرة على إحداث نقلة نوعية في معالجة المستندات الكبيرة والمعقدة عبر استخدام الإدراك البصري كوسيط لضغط النصوص، وتؤكّد أن هذه الطريقة يمكن أن تقّلص عدد الرموز النصية بمعدل يتراوح بين 7 و20 مرة.
توضح الشركة أن الإدراك البصري يعمل كتمثيل بصري للنص يسهّل تقليل حجمه، ما يمكّن نماذج الذكاء الاصطناعي من التعامل مع نصوص طويلة بشكل أكثر كفاءة.
نتائج مستقلة مثيرة للقلق
أشارت دراسة جديدة إلى أن الأداء كان غير متسق، وأن التقنية تعتمد بشكل كبير على الأسبقيات اللغوية التي تعلمتها النماذج من كميات هائلة من النصوص، بدلاً من الفهم البصري الحقيقي للنص.
وصف الباحثون المؤشرات المعلنة من DeepSeek بأنها مضللة، مشيرين إلى أن دقة الإجابة عن الأسئلة البصرية انخفضت إلى نحو 20% عندما أُضيف نص إضافي قد يؤثر في الاستدلال، مقارنةً بأكثر من 90% لدى نماذج الذكاء الاصطناعي التقليدية.
أزمة السياق الطويل وما بعدها
أوضح الباحثون أن نماذج الذكاء الاصطناعي لا تزال تواجه قيودًا جوهرية في معالجة المستندات الطويلة أو الحوارات الممتدة، وهي مشكلة تسعى إليها مراكز البحث حول العالم، مما يطرح تساؤلات حول جدوى تقنيات الضغط البصري كمسار لتجاوز هذه القيود.
آراء متباينة ومواقف علمية
لم ترد DeepSeek فورًا على طلب تعليق، بينما عبّر بعض خبراء علوم الحاسوب عن آراء متباينة؛ فبعضهم يرى أن التقنية ليست فاشلة بل سلاحًا ذا حدين، فاعتمادها على المعرفة المكتسبة قد يفيد في مخطوطات غير واضحة ولكنه قد يمثل نقطة ضعف عند قراءة نصوص مطبوعة وواضحة.
نظرة مستقبلية technical关于 النصوص الطويلة
يظهر هذا المسار أن سباق تحسين قدرة الذكاء الاصطناعي على فهم النصوص الطويلة ما زال مفتوحًا، وأنه لا توجد حلول سحرية تناسب جميع الحالات، وهو ما يحفز الباحثين على البحث عن استراتيجيات بديلة وأكثر موثوقية.
