Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio pentru inferență LLM de 4 ori mai rapidă.
DGX Scânteie: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), 3.999 USD
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), 5.599 USD
DGX Spark are de 3 ori mai puțină lățime de bandă de memorie decât M3 Ultra, dar de 4 ori mai mult FLOPS.
Rulând preumplerea legată de calcul pe DGX Spark, decodarea legată de memorie pe M3 Ultra și transmiterea cache-ului KV peste 10GbE, putem obține tot ce este mai bun din ambele hardware cu accelerări masive.
Scurtă explicație în acest subiect și link către postarea completă de mai jos.
Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio pentru inferență LLM de 4 ori mai rapidă.
DGX Scânteie: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), 3.999 USD
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), 5.599 USD
DGX Spark are de 3 ori mai puțină lățime de bandă de memorie decât M3 Ultra, dar de 4 ori mai mult FLOPS.
Rulând preumplerea legată de calcul pe DGX Spark și decodarea legată de memorie pe M3 Ultra și transmitând memoria cache KV peste 10GbE, putem obține tot ce este mai bun din ambele hardware cu accelerări masive.
Scurtă explicație în acest subiect și link către postarea completă de mai jos.
Combinarea NVIDIA DGX Spark + Apple M3 Ultra Mac Studio pentru inferențe LLM de 4 ori mai rapide folosind EXO.
DGX Scânteie: 128 GB @ 273 GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16)
DGX Spark are ~4x FLOPS de M3 Ultra, dar de 3 ori mai puțină lățime de bandă a memoriei.
Am reușit să obținem o creștere a performanței de 4 ori prin combinarea dispozitivelor și suprapunerea atentă a calculului și a comunicării în rețea (peste 10GbE). Cum?
Inferența LLM constă în două etape: precompletare și decodare.
Preumplerea este legată de calcul și devine mai rapidă cu mai multe FLOPS.
Decodarea este legată de memorie și devine mai rapidă cu mai multă lățime de bandă a memoriei.
Rulând preumplerea legată de calcul pe DGX Spark și decodarea legată de memorie pe M3 Ultra, am reușit să obținem o viteză de 4 ori la preumplere în comparație cu M3 Ultra Mac Studio și o accelerare de 3 ori la generare în comparație cu DGX Spark singur.
Mai multe detalii în postarea de mai jos.