Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pengelompokan NVIDIA DGX Spark + M3 Ultra Mac Studio untuk inferensi LLM 4x lebih cepat.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark memiliki bandwidth memori 3x lebih sedikit daripada M3 Ultra tetapi 4x lebih banyak FLOPS.
Dengan menjalankan prefill terikat komputasi pada DGX Spark, decode terikat memori pada M3 Ultra, dan streaming cache KV melalui 10GbE, kami bisa mendapatkan yang terbaik dari kedua perangkat keras dengan kecepatan besar-besaran.
Penjelasan singkat di utas ini & tautan ke posting blog lengkap di bawah ini.

Inferensi LLM terdiri dari tahap prefill dan decode.
Prefill memproses prompt, membangun cache KV. Ini terikat komputasi sehingga menjadi lebih cepat dengan lebih banyak FLOPS.
Decode membaca cache KV dan menghasilkan token satu per satu. Ini terikat memori sehingga menjadi lebih cepat dengan lebih banyak bandwidth memori.
Kita dapat menjalankan dua tahap ini di perangkat yang berbeda:
Isi awal: DGX Spark (perangkat komputasi tinggi, komputasi 4x)
Dekode: M3 Ultra (perangkat bandwidth memori tinggi, bandwidth memori 3x)
Namun, sekarang kita perlu mentransfer cache KV melalui jaringan (10GbE). Ini menimbulkan penundaan.
Tetapi cache KV dibuat untuk setiap lapisan transformator. Dengan mengirim cache KV setiap lapisan setelah dihitung, kita tumpang tindih komunikasi dengan komputasi.
Kami mengalirkan cache KV dan menyembunyikan penundaan jaringan.
Kami mencapai percepatan 4x dalam prefill & 3x dalam decode, dengan 0 penundaan jaringan.
Posting blog lengkap dan detail lebih lanjut tentang EXO 1.0:
Terima kasih @NVIDIA atas akses awal ke dua DGX Sparks. #SparkSomethingBig
439,61K
Teratas
Peringkat
Favorit

