تم إطلاق نموذج QVQ كأول نموذج مفتوح المصدر للتفكير متعدد الوسائط في الفهم البصري والتفكير المنطقي
النقاط الرئيسية في نموذج QVQ
التكامل بين اللغة والرؤية: نموذج QVQ يعزز العلاقة الطبيعية بين اللغة والرؤية، مما يمكّن الذكاء الاصطناعي من معالجة المعلومات المرئية والنصية وفهمها بشكل شامل.
قدرات التفكير وحل المشكلات: يُمكّن النموذج من التفكير المنهجي وحل المسائل المعقدة بخطوات متسلسلة، مثل تلك المتعلقة بالفيزياء والرياضيات.
تحسينات الأداء: حقق QVQ سبعين نقطة وثلاثة من عشرة على معيار MMMU، متفوقًا على النماذج السابقة، مع تحسينات واضحة في اختبارات التفكير الرياضي والعلمي.
معايير التقييم
MMMU: مجموعة بيانات متعددة التخصصات تُقيّم الفهم الشامل والقدرة المنطقية المتعلقة بالصور.
MathVista: تقيم القدرات الرياضية باستخدام الرسوم البيانية والأشكال الهندسية.
MathVision: مجموعة بيانات مستوحاة من مسابقات رياضية حقيقية.
OlympiadBench: مسائل رياضية وفيزيائية على مستوى أولمبياد.
أمثلة على التطبيقات
الرياضيات والهندسة: تطبيق قواعد الاشتقاق والتكامل، وحساب الأحجام ثلاثية الأبعاد.
العلوم الطبيعية: تحليل العمليات الكيميائية، وحل مسائل في الفيزياء والأحياء.
التحديات والمحددات
خلط اللغات: قد يخلط النموذج بين اللغات أثناء الإجابة.
التفكير الدائري: استجابات قد تكون مطولة دون نتائج نهائية.
التركيز البصري: يفقد النموذج أحيانًا التركيز أثناء التفكير البصري متعدد الخطوات.
الرؤية المستقبلية
أهداف التطوير: يهدف فريق Qwen إلى تطوير نموذج شامل قادر على التفاعل مع مختلف الوسائط، بما في ذلك النصوص، الصور، الصوت، والفيديو، ليكون أداة شاملة في الابتكار وحل التحديات العلمية.
الروابط والمصادر لمعلومات وتحميل وتجربه النموذج
- المدونة الرسمية: https://qwenlm.github.io/blog/qvq-72b-preview
لتجربه النموذج
- Hugging Face: https://huggingface.co/collections/Qwen/qvq-676448c820912236342b9888
- ModelScope: https://modelscope.cn/models/Qwen/QVQ-72B-Preview
- Kaggle: https://kaggle.com/models/qwen-lm/qvq-72b-preview
نموذج QVQ يُمثل تقدمًا كبيرًا في الذكاء الاصطناعي، حيث يدمج الفهم البصري بالتفكير المنطقي بطريقة مبتكرة. ومع التطوير المستمر، يُتوقع أن يُحدث هذا النموذج ثورة في معالجة البيانات وحل المشكلات المعقدة.