ByteDance esittelee Virtual Width Networks (VWN) tehokkaaseen tekoälyskaalaukseen Tämä uusi kehys laajentaa mallin upotustilaa laajemmille esityksille samalla kun laskenta pysyy vakiona. Se nopeuttaa optimointia yli 2x next-tokenille ja 3x next-2-tokenin ennustamiselle!