NVIDIA ci ha inviato 2 DGX Sparks. Per un po' ci siamo chiesti cosa avremmo fatto con loro. La larghezza di banda della memoria è di 273GB/s, rendendolo 3 volte più lento di un M3 Ultra (819GB/s) per l'inferenza con batch_size=1. Ma ha 4 volte più FLOPS (100 TFLOPS rispetto a 26 TFLOPS). Quindi abbiamo pensato, e se potessimo combinare il DGX Spark e l'M3 Ultra, e sfruttare sia il massiccio calcolo del DGX Spark che la massiccia larghezza di banda della memoria dell'M3 Ultra. Abbiamo trovato un modo per suddividere l'inferenza tra entrambi i dispositivi e ottenere un'accelerazione fino a 4 volte per prompt lunghi rispetto all'M3 Ultra da solo. Tutti i dettagli nel post del blog linkato qui sotto.