Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Combinando NVIDIA DGX Spark + Apple M3 Ultra Mac Studio para uma inferência LLM 4x mais rápida usando EXO.
DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16)
O DGX Spark tem ~4x FLOPS do M3 Ultra, mas 3x menos largura de banda de memória.
Conseguimos um aumento de desempenho de 4x ao combinar os dispositivos e sobrepondo cuidadosamente a computação e a comunicação de rede (mais de 10GbE). Como?
A inferência LLM consiste em duas etapas: pré-preenchimento e decodificação.
O pré-preenchimento é limitado pela computação e fica mais rápido com mais FLOPS.
A decodificação é limitada pela memória e fica mais rápida com mais largura de banda de memória.
Ao executar o pré-preenchimento limitado pela computação no DGX Spark e a decodificação limitada pela memória no M3 Ultra, conseguimos alcançar um aumento de 4x na velocidade do pré-preenchimento em comparação com o M3 Ultra Mac Studio sozinho e um aumento de 3x na geração em comparação com o DGX Spark sozinho.
Mais detalhes no post do blog abaixo.

Top
Classificação
Favoritos

