ByteDance führt Virtual Width Networks (VWN) für effizientes AI-Scaling ein Dieses neue Framework erweitert den Modell-Einbettungsraum für breitere Darstellungen, während die Berechnung konstant bleibt. Es beschleunigt die Optimierung um über das 2-fache für die Vorhersage des nächsten Tokens und um das 3-fache für die Vorhersage der nächsten 2 Tokens!