Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio pro 4x rychlejší odvozování LLM.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3,999 $
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), 5 599 $
DGX Spark má 3x menší šířku pásma paměti než M3 Ultra, ale 4x více FLOPS.
Spuštěním výpočetně vázaného předvyplnění na DGX Sparku, dekódováním vázaným na paměť na M3 Ultra a streamováním KV cache přes 10GbE jsme schopni získat to nejlepší z obou hardwaru s masivním zrychlením.
Krátké vysvětlení v tomto vlákně a odkaz na celý příspěvek na blogu níže.
Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio pro 4x rychlejší odvozování LLM.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3,999 $
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), 5 599 $
DGX Spark má 3x menší šířku pásma paměti než M3 Ultra, ale 4x více FLOPS.
Spuštěním výpočetně vázaného předvyplnění na DGX Spark a dekódování vázaného na paměť na M3 Ultra a streamováním KV cache přes 10GbE jsme schopni získat to nejlepší z obou hardwaru s masivním zrychlením.
Krátké vysvětlení v tomto vlákně a odkaz na celý příspěvek na blogu níže.
Kombinace NVIDIA DGX Spark + Apple M3 Ultra Mac Studio pro 4x rychlejší inferenci LLM pomocí EXO.
DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16)
DGX Spark má ~4x FLOPS oproti M3 Ultra, ale 3x menší šířku pásma paměti.
Kombinací zařízení a pečlivým překrýváním výpočetní a síťové komunikace (přes 10GbE) se nám podařilo dosáhnout 4x zvýšení výkonu. Jak?
LLM inference se skládá ze dvou fází: předvyplnění a dekódování.
Předvyplnění je vázáno na výpočty a s větším počtem FLOPS se zrychluje.
Dekódování je vázáno na paměť a s větší šířkou pásma paměti se zrychluje.
Spuštěním výpočetně vázaného předvyplnění na DGX Spark a dekódování vázaného na paměť na M3 Ultra jsme byli schopni dosáhnout 4x zrychlení prefillu ve srovnání se samotným M3 Ultra Mac Studio a 3x zrychlení při generování ve srovnání se samotným DGX Spark.
Více podrobností v příspěvku na blogu níže.