Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Combinando NVIDIA DGX Spark + Apple M3 Ultra Mac Studio para inferência LLM 4x mais rápida usando EXO.
Centelha DGX: 128 GB @ 273 GB/s, 100 TFLOPS (fp16)
M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16)
O DGX Spark tem ~4x FLOPS do M3 Ultra, mas 3x menos largura de banda de memória.
Conseguimos obter um aumento de desempenho de 4x combinando os dispositivos e sobrepondo cuidadosamente a computação e a comunicação de rede (acima de 10 GbE). Como?
A inferência de LLM consiste em dois estágios: pré-preenchimento e decodificação.
O preenchimento prévio é vinculado à computação e fica mais rápido com mais FLOPS.
A decodificação é vinculada à memória e fica mais rápida com mais largura de banda de memória.
Ao executar o pré-preenchimento vinculado à computação no DGX Spark e a decodificação vinculada à memória no M3 Ultra, conseguimos obter uma aceleração de 4x no preenchimento prévio em comparação com o M3 Ultra Mac Studio sozinho e uma aceleração de 3x na geração em comparação com o DGX Spark sozinho.
Mais detalhes na postagem do blog abaixo.

Melhores
Classificação
Favoritos

