تطوير نماذج Gemma 4 QAT: ثورة جوجل لتشغيل الذكاء الاصطناعي محلياً على الهواتف والحواسيب

هل حلمت يوماً بتشغيل نموذج ذكاء اصطناعي خارق ومتقدم بالكامل على هاتفك المحمول أو حاسوبك الشخصي دون الحاجة للاتصال بالإنترنت؟



المشكلة الأكبر التي تواجه مطوري التكنولوجيا وعشاق الذكاء الاصطناعي اليوم هي أن النماذج الضخمة تتطلب طاقة معالجة هائلة وذاكرة وصول عشوائي (VRAM) ضخمة لا تتوفر إلا في خوادم الشركات الكبرى. لكن "جوجل ديب مايند" (Google DeepMind) قررت إنهاء هذه المعضلة تماماً؛ حيث أعلنت رسمياً عن إطلاق تحديث ثوري لعائلة نماذج Gemma 4 مدعوماً بتقنية "التدريب المعتمد على التكميم" (Quantization-Aware Training أو اختصاراً QAT)، بهدف تقليص حجم النماذج بشكل مذهل وتسريع أدائها على الأجهزة الذكية وبطاقات الرسوميات الاستهلاكية.

ما هي تقنية QAT؟ وكيف تحافظ على ذكاء النموذج؟

لتشغيل النماذج محلياً، يلجأ المطورون عادةً إلى عملية تسمى "التكميم" (Quantization)، وهي ببساطة تصغير حجم البيانات الرمزية للنموذج لتوفير المساحة والذاكرة. لكن الطرق التقليدية التي تُعرف بـ "التكميم بعد التدريب" (PTQ) غالباً ما تؤدي إلى غباء النموذج وتراجع دقة إجاباته بشكل ملحوظ.

هنا يكمن السر في ابتكار جوجل الجديد؛ فبدلاً من ضغط النموذج بعد اكتمال تدريبه، دمجت تقنية QAT عملية المحاكاة والضغط داخل مرحلة التدريب نفسها! النتيجة؟ نماذج أصغر حجماً بمرتين أو ثلاث مرات، ولكنها تحتفظ بكامل جودتها وقدراتها الذكية الفائقة دون أي تراجع في الأداء مقارنة بالنسخ الأصلية الضخمة.

ثورة في توفير الذاكرة (VRAM) ومساحة التخزين

بفضل هذا التحديث، انخفضت متطلبات تشغيل نماذج Gemma 4 من ذاكرة الرسوميات بشكل غير مسبوق، مما يتيح لك تشغيلها على الحواسيب العادية والهواتف الذكية بسلاسة كاملة:

نموذج Gemma 4 E2B: تم تقليص حجمه المخصص للهواتف ليعمل بكفاءة مستهلكاً 1 جيجابايت فقط من الذاكرة (عند تشغيل نسخة النصوص الصرفة).

صيغة Q4_0 الشهيرة: تم تطبيق تقنية QAT عليها لتوفير أقصى أداء ممكن على مختلف الأجهزة المحلية.

هندسة ذكية مخصصة لمعالجات الهواتف المحمولة

المعالجات الموجودة في هواتفنا الذكية تختلف في بنيتها عن كروت الشاشة الضخمة، ولذلك واجهت صيغ الضغط العادية صعوبة في العمل عليها بسلاسة. لحل هذه المشكلة، قامت جوجل بهندسة معمارية خاصة بالهواتف تعتمد على أربعة ركائز أساسية:

الركائز الأربعة للهندسة الذكية لمعالجات الهواتف

تنشيطات ثابتة

حساب نسب أبعاد البيانات مسبقاً أثناء التدريب لمنح استجابة فائقة السرعة.

تكميم مخصص للقنوات

إعادة هيكلة البيانات لتتوافق تماماً مع مسرعات الذكاء الاصطناعي بالهاتف.

تكميم مستهدف (2 بت)

ضغط أجزاء توليد الكلمات بعنف مع الحفاظ على طبقات التفكير والتحليل.

تحسين الذاكرة KV Cache

تركيز الضغط على قائمة المفردات والذاكرة قصيرة المدى لمحادثات أطول.

نصيحة للمطورين: نظرًا لأن مشفرات الصوت والصورة قد لا تكون ضرورية في كثير من التطبيقات، يمكنك الاستغناء عنها عند النشر، وتشغيل نسخة النصوص فقط لتوفير مساحة الذاكرة إلى الحد الأقصى.

ابدأ استخدام نماذج Gemma 4 QAT اليوم

لم تنتظر جوجل طويلاً لإتاحة هذه التقنية، بل قامت بشراكات واسعة مع أشهر أدوات المطورين في منظومة الذكاء الاصطناعي لتوفير الدعم المباشر الفوري:

منصة Hugging Face: يمكنك الآن تحميل أوزان النماذج بصيغ متعددة مثل GGUF الجاهزة للعمل مع أداة llama.cpp.

التشغيل على الحواسيب الشخصية: يمكنك تجربة النماذج محلياً وبكل سهولة عبر واجهات مستخدم مرنة مثل Ollama و LM Studio.

التشغيل على الهواتف والويب: وفرت جوجل بيئة التشغيل الخفيفة LiteRT-LM المخصصة للهواتف، كما يمكن تشغيل النماذج مباشرة داخل متصفح الويب عبر مكتبة Transformers.js.

أدوات التطوير المتقدمة: تدعم النماذج الجديدة تقنيات التسريع المتطورة مثل vLLM و SGLang، كما تدعم بيئات العمل الخاصة بـ Apple Silicon عبر مكتبة MLX.

Next Post Previous Post
No Comment
Add Comment
comment url