
جوجل تطلق Gemini Embedding 2 لتمكين فهم النصوص والصور والفيديو معاً
أعلنت Google عن إطلاق Gemini Embedding 2، أول نموذج تضمين متعدد الوسائط بالكامل من الشركة، وهو نموذج ذكاء اصطناعي قادر على تحليل النصوص والصور والصوت والفيديو داخل نظام موحّد لفهم البيانات.
يربط النموذج هذه الأنواع المختلفة من المحتوى ضمن فضاء تضمين واحد، ما يسمح للذكاء الاصطناعي بفهم المفاهيم سواء ظهرت في كلمات مكتوبة أو صوت مسموع أو صورة أو مقطع فيديو.
وتؤكد Google، التي تتخذ من مدينة ماونتن فيو مقراً لها، أن هذه التقنية ستجعل نماذج اللغة الكبيرة تفهم المعلومات بشكل أكثر تكاملاً وتساعدها في تنفيذ مهام أكثر تعقيداً مقارنة بالأنظمة السابقة.
أول نموذج تضمين متعدد الوسائط من Google
في تدوينة رسمية، كشفت Google تفاصيل النموذج الجديد كجيل تالي من نماذج التضمين، وهو خليفة للنموذج السابق الذي يركز على النصوص فقط وأُطلق العام الماضي، وهو الآن قادر على فهم المعاني والسياق عبر أكثر من 100 لغة.
كما أصبح النموذج متاحاً حالياً في مرحلة المعاينة العامة عبر Gemini API، وكذلك عبر منصة Vertex AI.
كيف تتعامل نماذج الذكاء الاصطناعي مع البيانات
عادةً تستخدم نماذج الذكاء الاصطناعي أنظمة منفصلة لمعالجة أنواع البيانات المختلفة، فالنصوص تخزن وتُعالج في نظام محدد، وتُحفظ الصور في نظام آخر، وكذلك مقاطع الفيديو والملفات الصوتية.
وعندما يطلب المستخدم معلومات معينة، يبدأ النموذج البحث داخل النظام المرتبط بنوع الملف المطلوب فقط، فعلى سبيل المثال، كلمة قطة في مستند نصي قد تُفهم بشكل مختلف عن ظهورها في مقطع فيديو أو صورة، وتختلف طرق استخراج المعلومات باختلاف نوع المحتوى.
نظام موحّد لمعالجة جميع أنواع المحتوى
يهدف Gemini Embedding 2 إلى حل هذه المشكلة من خلال بنية تعتمد مساحة تضمين موحدة تعالج جميع أنواع البيانات، فبدلاً من أنظمة متعددة، يستطيع النموذج التعامل مع النصوص والصور والفيديو والصوت داخل نظام واحد فقط.
يعني ذلك أن النموذج يمكنه تحليل مستند يحتوي على نصوص وصور في وقت واحد كما يفهم البشر من مصادر متعددة دفعة واحدة، وتقول Google إن هذه البنية تبسط الأنظمة التقنية المعقدة وتحسّن أداء التطبيقات المعتمدة على الذكاء الاصطناعي.
تطبيقات واسعة للنموذج الجديد
وبحسب Google، يمكن استخدام Gemini Embedding 2 في تطبيقات متعددة، منها تقنيات Retrieval-Augmented Generation المعروفة بـ RAG، التي تساعد نماذج الذكاء الاصطناعي في توليد إجابات أكثر دقة بالاستفادة من مصادر خارجية.
كما يمكن استخدامه في تحسين البحث الدلالي داخل قواعد البيانات، وتحليل المشاعر في النصوص، وتنظيم البيانات وتجميعها ضمن مجموعات متشابهة.
قدرات تقنية متقدمة
على مستوى النصوص، يملك النموذج نافذة سياق تصل إلى 8192 رمز إدخال، ما يسمح بمعالجة كميات كبيرة من المحتوى النصي في الطلب الواحد.
كما يستطيع تحليل حتى ست صور في الطلب الواحد بصيغ PNG وJPEG، وفي الفيديو يمكنه معالجة مقاطع تصل مدتها إلى 120 ثانية بصيغ MP4 وMOV.
ويتميز أيضاً بقدرته على معالجة البيانات الصوتية مباشرة دون تحويلها إلى نص، مما يسرّع تحليل الصوت، كما يمكنه تضمين ملفات PDF يصل طولها إلى ست صفحات.