Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

EXO Labs
Pengelompokan NVIDIA DGX Spark + M3 Ultra Mac Studio untuk inferensi LLM 4x lebih cepat.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark memiliki bandwidth memori 3x lebih sedikit daripada M3 Ultra tetapi 4x lebih banyak FLOPS.
Dengan menjalankan prefill terikat komputasi pada DGX Spark, decode terikat memori pada M3 Ultra, dan streaming cache KV melalui 10GbE, kami bisa mendapatkan yang terbaik dari kedua perangkat keras dengan kecepatan besar-besaran.
Penjelasan singkat di utas ini & tautan ke posting blog lengkap di bawah ini.

439,67K
Pengelompokan NVIDIA DGX Spark + M3 Ultra Mac Studio untuk inferensi LLM 4x lebih cepat.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark memiliki bandwidth memori 3x lebih sedikit daripada M3 Ultra tetapi 4x lebih banyak FLOPS.
Dengan menjalankan prefill terikat komputasi pada DGX Spark dan dekode terikat memori pada M3 Ultra, dan streaming cache KV melalui 10GbE, kami bisa mendapatkan yang terbaik dari kedua perangkat keras dengan kecepatan besar.
Penjelasan singkat di utas ini & tautan ke posting blog lengkap di bawah ini.

499
Menggabungkan NVIDIA DGX Spark + Apple M3 Ultra Mac Studio untuk inferensi LLM 4x lebih cepat menggunakan EXO.
DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512GB @ 819GB/dtk, 26 TFLOPS (fp16)
DGX Spark memiliki ~4x FLOPS M3 Ultra tetapi bandwidth memori 3x lebih sedikit.
Kami bisa mendapatkan peningkatan kinerja 4x lipat dengan menggabungkan perangkat dan komputasi dan komunikasi jaringan yang tumpang tindih dengan hati-hati (lebih dari 10GbE). Bagaimana?
Inferensi LLM terdiri dari dua tahap: prefill dan decode.
Prefill terikat komputasi dan menjadi lebih cepat dengan lebih banyak FLOPS.
Dekode terikat memori dan menjadi lebih cepat dengan bandwidth memori yang lebih banyak.
Dengan menjalankan prefill terikat komputasi pada DGX Spark dan decode terikat memori pada M3 Ultra, kami dapat mencapai percepatan 4x pada prefill dibandingkan dengan M3 Ultra Mac Studio saja dan percepatan 3x pada generasi dibandingkan dengan DGX Spark saja.
Detail lebih lanjut di posting blog di bawah ini.

810
Teratas
Peringkat
Favorit

