Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio per un'inferenza LLM 4 volte più veloce.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
Il DGX Spark ha 3 volte meno larghezza di banda della memoria rispetto all'M3 Ultra ma 4 volte più FLOPS.
Eseguendo il prefill vincolato dalla computazione sul DGX Spark e il decode vincolato dalla memoria sull'M3 Ultra, e trasmettendo la cache KV su 10GbE, siamo in grado di ottenere il meglio di entrambi gli hardware con enormi accelerazioni.
Breve spiegazione in questo thread e link al post completo del blog qui sotto.

L'inferenza LLM consiste in una fase di prefill e in una fase di decodifica.
Il prefill elabora il prompt, costruendo una cache KV. È limitato dalla potenza di calcolo - diventa più veloce con più FLOPS.
La decodifica legge la cache KV e genera i token uno alla volta. È limitata dalla memoria - diventa più veloce con una maggiore larghezza di banda della memoria.
429
Principali
Ranking
Preferiti

