NVIDIA надіслала нам 2 DGX Sparks. Якийсь час ми думали, що будемо з ними робити. Пропускна здатність пам'яті становить 273 ГБ/с, що робить її в 3 рази повільнішою, ніж M3 Ultra (819 ГБ/с) для висновку batch_size=1. Зате у нього в 4 рази більше FLOPS (100 TFLOPS проти 26 TFLOPS). Тому ми подумали, а що, якщо ми зможемо об'єднати DGX Spark і M3 Ultra і використовувати як масивні обчислення на DGX Spark, так і величезну пропускну здатність пам'яті на M3 Ultra. Ми придумали спосіб розділити висновки між обома пристроями та досягти прискорення до 4 разів для довгих підказок порівняно з M3 Ultra окремо. Повна інформація в публікації блогу за посиланням нижче.