النهج التقليدي: يتم التخلص من KV Cache بعد كل استعلام، مما يعني "النسيان" وإعادة الحساب المستمرة.
Tensormesh تجمع 4.5 مليون دولار لخفض تكاليف الذكاء الاصطناعي بعشرة أضعاف
Tensormesh: ريادة كفاءة الاستدلال في الذكاء الاصطناعي
مع التوسع المتسارع في البنية التحتية للذكاء الاصطناعي، يزداد الطلب على تحقيق أقصى كفاءة في قدرة الاستدلال من وحدات معالجة الرسوميات (GPUs) المتاحة. في هذا الإطار، تبرز شركة Tensormesh، التي أعلنت مؤخرًا عن ظهورها بتمويل تأسيسي بقيمة 4.5 مليون دولار قادته شركة Laude Ventures، بمشاركة من رائد قواعد البيانات مايكل فرانكلين. تهدف Tensormesh إلى استغلال هذا التمويل لتطوير نسخة تجارية من أداتها مفتوحة المصدر LMCache، التي أسسها ويشرف عليها المؤسس المشارك ييهوا تشنغ. تُعرف LMCache بقدرتها على خفض تكاليف الاستدلال بنسبة تصل إلى عشرة أضعاف عند استخدامها بفعالية، مما جعلها مكونًا حيويًا في عمليات النشر مفتوحة المصدر واجتذبت اهتمام شركات عملاقة مثل جوجل وإنفيديا. تسعى Tensormesh الآن لتحويل هذا النجاح الأكاديمي إلى نموذج عمل تجاري مستدام ومبتكر.

التقنية الأساسية: نظام التخزين المؤقت للقيم الرئيسية (KV cache)
بدون KV Cache (الطريقة التقليدية)
إعادة حساب متكررة للتوكينات السابقة.
استهلاك عالي للموارد وتبطؤ في الاستجابة.
مع KV Cache (تحسين Tensormesh)
تخزين وإعادة استخدام مصفوفات المفاتيح والقيم.
تسريع الاستدلال وتوفير كبير في الموارد.
تتركز تقنية Tensormesh الأساسية حول نظام التخزين المؤقت للقيم الرئيسية (KV cache). يُعد الـ KV cache آلية تحسين حاسمة تُستخدم في نماذج اللغة الكبيرة (LLMs) لتخزين مصفوفات المفاتيح والقيم المحسوبة للتوكينات التي تمت معالجتها سابقًا. تسمح هذه العملية للنماذج بتوليد توكينات جديدة بسرعة وكفاءة أكبر عن طريق تجنب إعادة الحسابات المتكررة في آلية الانتباه الذاتي. بهذه الطريقة، تتسارع عملية الاستدلال بشكل ملحوظ، خاصةً في مهام توليد النصوص الطويلة ومحادثات الذكاء الاصطناعي التي تتطلب تذكر السياق السابق. يقلل الـ KV cache من الوقت والجهد اللازمين للتنبؤ بالكلمات الجديدة عن طريق تذكر الحسابات السابقة بدلاً من تكرارها (Hugging Face). يساهم هذا التخزين في تسريع استجابات النموذج دون الحاجة إلى إعادة معالجة المعلومات التي تم حسابها بالفعل (Microsoft Research، 8 مايو 2024). في البنى التقليدية، عادةً ما يتم التخلص من هذا التخزين المؤقت بعد كل استعلام، وهو ما يعتبره الرئيس التنفيذي لشركة Tensormesh، جوتشين جيانغ، مصدرًا كبيرًا لعدم الكفاءة.

تجاوز القيود التقليدية وإعادة استخدام الـ KV cache
تجاوز القيود التقليدية في إدارة KV Cache
حل Tensormesh: الاحتفاظ بـ KV Cache وإعادة استخدامه عبر استعلامات متتالية لـ "التذكر" الدائم.
توزيع ذكي: قد يتم توزيع البيانات عبر طبقات تخزين متعددة (GPU، CPU، قرص) للحفاظ على الموارد.
الكفاءة القصوى: تحقيق قدرة استدلالية أعلى بكثير باستخدام نفس الموارد المخصصة للخادم.
يصف جونتشين جيانغ، المؤسس المشارك لـ Tensormesh، الوضع الحالي بقوله: "الأمر يشبه امتلاك محلل ذكي للغاية يقرأ كافة البيانات، لكنه ينسى كل ما تعلمه بعد كل سؤال جديد". تتجنب أنظمة Tensormesh هذا الهدر من خلال الاحتفاظ بالـ KV cache، مما يتيح إعادة استخدامه بفعالية عندما يواجه النموذج عمليات مشابهة في استعلامات متتالية. وبالنظر إلى القيمة العالية لذاكرة وحدات معالجة الرسوميات (GPU)، فإن هذا النهج قد يتطلب توزيع البيانات عبر طبقات تخزين متعددة. ومع ذلك، فإن النتيجة هي تحقيق قدرة استدلالية أعلى بكثير بنفس الموارد المخصصة للخادم، مما يعزز كفاءة تحميل بيانات المفتاح/القيمة من ذاكرة GPU إلى وسائط تخزين أقل تكلفة مثل ذاكرة المعالج المركزي أو القرص، مما يوفر موارد GPU مع الحفاظ على القدرة على استئناف الاستدلال دون إعادة حساب (BentoML).

تطبيقات مبتكرة وقيمة حل Tensormesh
التحدي: بناء حل داخلي
- تعقيد فني كبير: مهمة شاقة تتطلب خبرة متخصصة.
- وقت طويل وموارد ضخمة: قد يستغرق شهورًا ويوظف عشرات المهندسين.
- تكاليف باهظة: استثمار كبير دون ضمان أفضل النتائج.
القيمة: حل Tensormesh الجاهز
- كفاءة عالية فورية: خفض التكاليف التشغيلية بنسبة تصل إلى عشرة أضعاف.
- توفير الوقت والموارد: تجاوز التحديات الفنية بتطبيق جاهز.
- أداء محسن وموثوقية: استغلال الخبرة المتخصصة لفريق Tensormesh.
يُظهر هذا الابتكار فعالية خاصة في تطبيقات مثل واجهات الدردشة، حيث تحتاج نماذج اللغة باستمرار إلى الرجوع إلى سجل المحادثة المتنامي لتقديم استجابات متماسكة وذات صلة. وبالمثل، تستفيد الأنظمة الوكيلة التي تدير سجلًا متزايدًا من الإجراءات والأهداف من هذه التقنية لتحسين أدائها. على الرغم من أن شركات الذكاء الاصطناعي قد تتمكن نظريًا من تنفيذ هذه التحسينات داخليًا، إلا أن التعقيد الفني الكبير يجعل هذه المهمة شاقة وتستغرق وقتًا طويلاً. وبالنظر إلى الخبرة المتخصصة لفريق Tensormesh في هذا المجال والبحث العميق الذي أجرته الشركة حول تعقيدات هذه العملية، فإنها تراهن على وجود طلب قوي على حل جاهز للاستخدام يوفر الكفاءة المطلوبة.

يوضح جيانغ الصعوبة قائلاً: "إن الاحتفاظ بـ KV cache في نظام تخزين ثانوي وإعادة استخدامه بكفاءة دون إبطاء النظام بأكمله يمثل تحديًا تقنيًا كبيرًا. لقد رأينا شركات توظف 20 مهندسًا وتستغرق ثلاثة أو أربعة أشهر لبناء مثل هذا النظام. باستخدام منتجنا، يمكنهم تحقيق ذلك بكفاءة عالية وتوفير الوقت والموارد بشكل كبير."