NVIDIA wysłało nam 2 DGX Sparks. Przez jakiś czas zastanawialiśmy się, co z nimi zrobimy. Przepustowość pamięci wynosi 273GB/s, co czyni go 3 razy wolniejszym niż M3 Ultra (819GB/s) przy inferencji batch_size=1. Ale ma 4 razy więcej FLOPS (100 TFLOPS w porównaniu do 26 TFLOPS). Pomyśleliśmy więc, co by było, gdybyśmy mogli połączyć DGX Spark i M3 Ultra, i wykorzystać zarówno ogromną moc obliczeniową DGX Spark, jak i ogromną przepustowość pamięci M3 Ultra. Opracowaliśmy sposób na podział inferencji pomiędzy oba urządzenia, osiągając przyspieszenie do 4x dla długich promptów w porównaniu do samego M3 Ultra. Pełne szczegóły w poście na blogu podanym poniżej.