تم إطلاق نموذج QVQ كأول نموذج مفتوح المصدر للتفكير متعدد الوسائط في الفهم البصري والتفكير المنطقي

تم إطلاق نموذج QVQ  كأول نموذج مفتوح المصدر للتفكير متعدد الوسائط، طوره فريق Qwen. يعتمد هذا النموذج على Qwen2-VL-72B، ويهدف إلى تقديم إمكانيات غير مسبوقة في الفهم البصري وحل المشكلات المعقدة. يُمثل QVQ خطوة هامة نحو تحقيق ذكاء اصطناعي أكثر تطورًا وابتكارًا.

نموذج ذكاء اصطناعى


النقاط الرئيسية في نموذج QVQ



التكامل بين اللغة والرؤية: نموذج QVQ يعزز العلاقة الطبيعية بين اللغة والرؤية، مما يمكّن الذكاء الاصطناعي من معالجة المعلومات المرئية والنصية وفهمها بشكل شامل.

قدرات التفكير وحل المشكلات: يُمكّن النموذج من التفكير المنهجي وحل المسائل المعقدة بخطوات متسلسلة، مثل تلك المتعلقة بالفيزياء والرياضيات.

تحسينات الأداء: حقق QVQ سبعين نقطة وثلاثة من عشرة على معيار MMMU، متفوقًا على النماذج السابقة، مع تحسينات واضحة في اختبارات التفكير الرياضي والعلمي.

معايير التقييم

MMMU: مجموعة بيانات متعددة التخصصات تُقيّم الفهم الشامل والقدرة المنطقية المتعلقة بالصور.

MathVista: تقيم القدرات الرياضية باستخدام الرسوم البيانية والأشكال الهندسية.

MathVision: مجموعة بيانات مستوحاة من مسابقات رياضية حقيقية.

OlympiadBench: مسائل رياضية وفيزيائية على مستوى أولمبياد.

أمثلة على التطبيقات

الرياضيات والهندسة: تطبيق قواعد الاشتقاق والتكامل، وحساب الأحجام ثلاثية الأبعاد.

العلوم الطبيعية: تحليل العمليات الكيميائية، وحل مسائل في الفيزياء والأحياء.

التحديات والمحددات

خلط اللغات: قد يخلط النموذج بين اللغات أثناء الإجابة.

التفكير الدائري: استجابات قد تكون مطولة دون نتائج نهائية.

التركيز البصري: يفقد النموذج أحيانًا التركيز أثناء التفكير البصري متعدد الخطوات.

الرؤية المستقبلية

أهداف التطوير: يهدف فريق Qwen إلى تطوير نموذج شامل قادر على التفاعل مع مختلف الوسائط، بما في ذلك النصوص، الصور، الصوت، والفيديو، ليكون أداة شاملة في الابتكار وحل التحديات العلمية.

الروابط والمصادر لمعلومات وتحميل وتجربه النموذج

- المدونة الرسمية: https://qwenlm.github.io/blog/qvq-72b-preview

لتجربه النموذج 

- Hugging Face: https://huggingface.co/collections/Qwen/qvq-676448c820912236342b9888

- ModelScope: https://modelscope.cn/models/Qwen/QVQ-72B-Preview

- Kaggle: https://kaggle.com/models/qwen-lm/qvq-72b-preview


نموذج QVQ يُمثل تقدمًا كبيرًا في الذكاء الاصطناعي، حيث يدمج الفهم البصري بالتفكير المنطقي بطريقة مبتكرة. ومع التطوير المستمر، يُتوقع أن يُحدث هذا النموذج ثورة في معالجة البيانات وحل المشكلات المعقدة.

Next Post Previous Post
No Comment
Add Comment
comment url