Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Klustring av NVIDIA DGX Spark + M3 Ultra Mac Studio för 4x snabbare LLM-inferens.
DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark har 3 gånger mindre minnesbandbredd än M3 Ultra men 4 gånger mer FLOPS.
Genom att köra beräkningsbunden förifyllning på DGX Spark och minnesbunden avkodning på M3 Ultra, och strömma KV-cachen över 10 GbE, kan vi få det bästa av båda maskinvarorna med massiva hastighetsökningar.
Kort förklaring i denna tråd och länk till hela blogginlägget nedan.

LLM-inferens består av ett förifyllningssteg och ett avkodningssteg.
Förifyllning bearbetar prompten och skapar en KV-cache. Det är beräkningsbundet - blir snabbare med fler FLOPS.
Avkodning läser KV-cache och genererar tokens en efter en. Det är minnesbundet - blir snabbare med mer minnesbandbredd.
494
Topp
Rankning
Favoriter

