Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Agrupamento NVIDIA DGX Spark + M3 Ultra Mac Studio para uma inferência LLM 4x mais rápida.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
O DGX Spark tem 3x menos largura de banda de memória do que o M3 Ultra, mas 4x mais FLOPS.
Ao executar o pré-preenchimento limitado por computação no DGX Spark e a decodificação limitada por memória no M3 Ultra, e transmitindo o cache KV através de 10GbE, conseguimos obter o melhor de ambos os hardwares com aumentos de velocidade massivos.
Explicação curta neste tópico e link para o post completo do blog abaixo.

A inferência LLM consiste em uma fase de pré-preenchimento e uma fase de decodificação.
O pré-preenchimento processa o prompt, construindo um cache KV. É limitado por computação - fica mais rápido com mais FLOPS.
A decodificação lê o cache KV e gera tokens um por um. É limitado por memória - fica mais rápido com mais largura de banda de memória.
498
Top
Classificação
Favoritos

