أرسلت لنا NVIDIA 2 DGX Sparks. لفترة من الوقت تساءلنا عما سنفعله بهم. يبلغ عرض النطاق الترددي للذاكرة 273 جيجابايت / ثانية مما يجعلها أبطأ 3 مرات من M3 Ultra (819 جيجابايت / ثانية) للاستدلال batch_size = 1. لكنها تحتوي على 4 أضعاف FLOPS (100 TFLOPS مقارنة ب 26 TFLOPS). لذلك فكرنا ، ماذا لو تمكنا من الجمع بين DGX Spark و M3 Ultra ، والاستفادة من كل من الحوسبة الضخمة على DGX Spark وعرض النطاق الترددي الهائل للذاكرة على M3 Ultra. لقد توصلنا إلى طريقة لتقسيم الاستدلال عبر كلا الجهازين وتحقيق تسريع يصل إلى 4x للمطالبات الطويلة مقارنة ب M3 Ultra من تلقاء نفسه. التفاصيل الكاملة في منشور المدونة المرتبط أدناه.