Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio per un'inferenza LLM 4 volte più veloce. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599 Il DGX Spark ha 3 volte meno larghezza di banda della memoria rispetto all'M3 Ultra ma 4 volte più FLOPS. Eseguendo il prefill vincolato dalla computazione sul DGX Spark e il decode vincolato dalla memoria sull'M3 Ultra, e trasmettendo la cache KV su 10GbE, siamo in grado di ottenere il meglio di entrambi gli hardware con enormi accelerazioni. Breve spiegazione in questo thread e link al post completo del blog qui sotto.
L'inferenza LLM consiste in una fase di prefill e in una fase di decodifica. Il prefill elabora il prompt, costruendo una cache KV. È limitato dalla potenza di calcolo - diventa più veloce con più FLOPS. La decodifica legge la cache KV e genera i token uno alla volta. È limitata dalla memoria - diventa più veloce con una maggiore larghezza di banda della memoria.
429