جوجل تطلق Gemma 3: نماذج ذكاء اصطناعي تعمل على كرت شاشة واحد

Gemma 3 QAT: نماذج ذكاء اصطناعي متقدمة على وحدات GPU استهلاكية



ما هي Gemma 3 QAT ولماذا تُعتبر ثورة في الذكاء الاصطناعي؟

أطلقت جوجل الجيل الجديد من نماذج الذكاء الاصطناعي المفتوحة Gemma 3 المدعومة بتقنية BF16 على وحدة واحدة مثل H100، مما رفع سقف الأداء إلى مستوى غير مسبوق.

إتاحة الذكاء الاصطناعي القوي على الأجهزة الشخصية

تهدف جوجل إلى جعل الذكاء الاصطناعي متاحًا للجميع من خلال تشغيل نماذج Gemma 3 QAT على الحواسيب المكتبية والمحمولة وحتى الهواتف الذكية.

ما هو التكميم ولماذا هو مهم؟

التكميم (Quantization) يقلل حجم النماذج عن طريق تمثيل المعلمات بدقة أقل—مثل استخدام int4 بدلاً من BF16—مما يخفض استهلاك الذاكرة بشكل جذري.

ما هو QAT وكيف يحافظ على جودة النموذج؟

التدريب المدرك للتكميم (Quantization‑Aware Training, QAT) يدمج التكميم أثناء مرحلة التدريب، مما يحافظ على دقة النموذج ويقلل من تدهور الأداء بعد التكميم، وهو أساس فعالية نماذج Gemma 3 QAT.

استهلاك الذاكرة بعد التكميم (int4)

  • Gemma 3 27B: من أربعة وخمسين جيجابايت إلى أربعة عشر فاصلة واحد جيجابايت فقط
  • Gemma 3 12B: من أربعة وعشرين جيجابايت إلى ستة فاصلة ستة جيجابايت
  • Gemma 3 4B: من ثمانية جيجابايت إلى اثنين فاصلة ستة جيجابايت
  • Gemma 3 1B: من اثنين جيجابايت إلى نصف جيجابايت فقط

تشغيل النماذج على جهازك المحلي

  • 27B: تعمل بسلاسة على بطاقات RTX 3090
  • 12B: متوافقة مع RTX 4060 للابتوب (ثمانية جيجابايت VRAM)
  • 4B و1B: مناسبة للأجهزة محدودة الموارد وحتى الهواتف الذكية

تكامل سهل مع الأدوات

  • Ollama
  • LM Studio
  • MLX
  • Gemma.cpp
  • llama.cpp

مصادر مهمة

للاطلاع على التفاصيل الكاملة، راجع منشور جوجل الرسمي: قراءة المصدر من Google Developers Blog

ابدأ اليوم!

بفضل تقنيات التكميم والتدريب المدرك للتكميم (QAT)، أصبح بإمكانك تشغيل نماذج Gemma 3 المتقدمة محليًا على أجهزتك، مما يقربنا خطوة أخرى من ديمقراطية الذكاء الاصطناعي.

Previous Post
No Comment
Add Comment
comment url