Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

EXO Labs
Кластеризація NVIDIA DGX Spark + M3 Ultra Mac Studio для 4-кратного швидшого висновування LLM.
DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16), $5,599
DGX Spark має в 3 рази меншу пропускну здатність пам'яті, ніж M3 Ultra, але в 4 рази більше FLOPS.
Запускаючи повне заповнення з прив'язкою до обчислень на DGX Spark, декодування з прив'язкою до пам'яті на M3 Ultra і потокове передавання кешу KV через 10 GbE, ми можемо отримати найкраще з обох апаратних засобів із величезним прискоренням.
Коротке пояснення в цій темі та посилання на повну публікацію в блозі нижче.

439,67K
Кластеризація NVIDIA DGX Spark + M3 Ultra Mac Studio для 4-кратного швидшого висновування LLM.
DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16), $5,599
DGX Spark має в 3 рази меншу пропускну здатність пам'яті, ніж M3 Ultra, але в 4 рази більше FLOPS.
Запустивши повне заповнення з прив'язкою до обчислень на DGX Spark і декодування з прив'язкою до пам'яті на M3 Ultra, а також передаючи потокову передачу кешу KV через 10 GbE, ми можемо отримати найкраще з обох апаратних засобів із величезним прискоренням.
Коротке пояснення в цій темі та посилання на повну публікацію в блозі нижче.

502
Поєднання NVIDIA DGX Spark + Apple M3 Ultra Mac Studio для 4-кратного швидшого висновку LLM за допомогою EXO.
DGX Spark: 128 ГБ @ 273 ГБ/с, 100 TFLOPS (fp16)
M3 Ultra Mac Studio: 512 ГБ @ 819 ГБ/с, 26 TFLOPS (fp16)
DGX Spark має ~4 FLOPS від M3 Ultra, але в 3 рази меншу пропускну здатність пам'яті.
Ми змогли отримати 4-кратне збільшення продуктивності завдяки об'єднанню пристроїв та ретельному перекриттю обчислень і мережевого зв'язку (понад 10 GbE). Як?
Висновок LLM складається з двох етапів: попереднього заповнення та декодування.
Попереднє заповнення прив'язане до обчислень і стає швидшим із більшою кількістю FLOPS.
Декодування обмежується пам'яттю і стає швидшим із більшою пропускною здатністю пам'яті.
Запустивши пов'язане з обчисленнями попереднє заповнення на DGX Spark і декодування з прив'язкою до пам'яті на M3 Ultra, ми змогли досягти 4-кратного прискорення на попередньому заповненні порівняно лише з M3 Ultra Mac Studio та 3-кратне прискорення під час генерації порівняно з одним лише DGX Spark.
Більше подробиць у дописі блогу нижче.

812
Найкращі
Рейтинг
Вибране

