جوجل تطلق Gemini Embedding 2 بهدف فهم النصوص والصور والفيديو معاً

2026-03-12

دقيقة واحدة

أعلنت Google عن إطلاق Gemini Embedding 2 كأول نموذج تضمين متعدد الوسائط يمتلك قدرة تحليل النصوص والصور والصوت والفيديو داخل مساحة تضمين موحدة لفهم البيانات.

وأوضحت الشركة أن النموذج الجديد يربط هذه الأنواع من المحتوى داخل مساحة تضمين واحدة، ما يسمح للذكاء الاصطناعي بفهم المفاهيم سواء ظهرت في كلمات مكتوبة أو صوت مسموع أو صورة أو مقطع فيديو.

وتؤكد Google، التي تتخذ من Mountain View مقراً لها، أن التقنية ستتيح للنماذج اللغوية الكبيرة فهم المعلومات بشكل أكثر تكاملاً وتساعدها على تنفيذ مهام أكثر تعقيداً مقارنة بالأنظمة السابقة.

أول نموذج تضمين متعدد الوسائط من جوجل

كشفت Google في تدوينتها الرسمية تفاصيل النموذج الجديد، موضحة أنه الجيل التالي من نماذج التضمين ومخصص للفهم عبر أكثر من 100 لغة.

ويعتبر Gemini Embedding 2 خليفة للنموذج التضمين السابق الذي كان يركز على النصوص فقط وأُطلق العام الماضي، وهو الآن قادر على فهم المعاني والسياق عبر أكثر من 100 لغة.

نظام موحد لمعالجة جميع أنواع المحتوى

يهدف Gemini Embedding 2 إلى حل المشكلة عبر بناء مساحة تضمين موحدة يمكنها التعامل مع جميع أنواع البيانات.

يعني ذلك أن النموذج يمكنه تحليل مستند يحتوي على نصوص وصور في الوقت نفسه، بطريقة تشبه إلى حد كبير الطريقة التي يفهم بها البشر المعلومات من مصادر متعددة في آن واحد.

تطبيقات واسعة للنموذج الجديد

يمكن استخدام Gemini Embedding 2 في تطبيقات مثل تقنيات Retrieval-Augmented Generation المعروفة اختصاراً باسم RAG، لتعزيز دقة الإجابات عبر الاستفادة من مصادر خارجية.

يمكنه أيضاً تحسين البحث الدلالي في قواعد البيانات وتحليل المشاعر وتنظيم البيانات وتجمّعها.

قدرات تقنية متقدمة

يمتلك النموذج نافذة سياق تصل إلى 8192 رمز إدخال للنص، ويمكنه تحليل حتى ست صور في الطلب الواحد بصيغ PNG وJPEG، كما يمكنه معالجة مقاطع الفيديو حتى طول 120 ثانية بصيغ MP4 وMOV، إضافة إلى إمكانية تحليل البيانات الصوتية مباشرة دون تحويلها إلى نص، وأيضاً تضمين ملفات PDF حتى ست صفحات.