
أطلقت شركة StepFun AI نموذجاً جديداً يُدعى Step‑DeepResearch، وهو وكيل بحث عميق شامل من نوع end-to-end يعتمد على قاعدة Qwen2.5-32B-Base ويضم 32 مليار معاملة، ويهدف إلى تحويل عمليات البحث العادية على الويب إلى سير عمل بحثي متقدم يتضمن التفكير طويل الأجل واستخدام الأدوات والتقارير المنظَّمة مع الاستشهادات مع الحفاظ على تكلفة استدلال منخفضة نسبياً مقارنة بالنماذج الكبيرة الأخرى.
تصميم مهمة البحث كعملية اتخاذ قرار تسلسلي
يعيد النموذج مهمة البحث العميق كعملية اتخاذ قرار تسلسلي تعتمد على أربع قدرات أساسية مركّبة، هي التخطيط وتفكيك المهمة، البحث العميق عن المعلومات، التأمل والتحقق، وإنتاج التقارير المهنية. وبدلاً من الاعتماد على تنسيق عدة وكلاء خارجيين، يدمج هذه الحلقة داخلياً في وكيل واحد يقرر الخطوة التالية في كل مرحلة.
التخطيط وتفكيك المهمة
حدد النموذج خطة بحث واقعية مستمدة من تقارير تقنية وأوراق مسحية وتحليلات مالية، ثم توليد مسارات تتبع هذه الخطط.
البحث العميق عن المعلومات
ولد استفسارات قائمة على الرسوم البيانية عبر قواعد معرفية مثل Wikidata5m وCN-DBpedia، مع تركيز على الأسئلة الصعبة التي تتطلب استرداداً متعدد الوثائق.
التأمل والتحقق
تمثل حلقات تصحيح ذاتي وتتبعات معلم متعدد الوكلاء طريقة للتأمل والتحقق من النتائج قبل إنتاج التقارير.
إنتاج التقارير
يتركز التدريب على التنسيق الاستشهادي الدقيق ويشمل ثلاث مراحل: mid-training لإدخال القدرات الأساسية حتى 150 مليار توكن مع سياق 32k ثم 128k، supervised fine-tuning لتركيب مسارات بحث كاملة، وreinforcement learning باستخدام PPO ومُحك Rubrics لتحسين التقارير وفقاً لمعايير دقيقة.
هندسة REACT مع مكدس بحث خارجي وذاكرة خارجية
يعمل النموذج كـ ReAct واحد يتناوب بين التفكير واستدعاء الأدوات والملاحظات حتى يقرر إصدار التقرير. تشمل الأدوات البحث الجماعي على الويب، مدير المهام، أوامر الشل، وعمليات الملفات داخل sandbox مع استمرارية الطرفية. يستخدم مكدس بحث API خاص يغطي أكثر من 20 مليون ورقة بحثية عالية الجودة و600 مؤشر متميز، بالإضافة إلى تصنيف سلطة يفضل أكثر من 600 نطاق موثوق (حكومي، أكاديمي، مؤسسي)، لتجنب تجاوز السياق، ويستخدم تخزيناً ذكياً يعتمد على الملخصات وتحرير التصحيحات الجزئية للملفات، مما يعمل كذاكرة خارجية فعالة للمشاريع الطويلة.