«GHC introduceert een flexibel mechanisme dat, met lichte berekeningen, de Over-Wide Hidden States comprimeert naar de backbone-breedte voordat ze in de aandacht- of feed-forwardmodules worden gevoerd, en vervolgens de module-uitgangen weer uitbreidt naar de Over-Wide» crazy chutzpah
DailyPapers
DailyPapers17 nov, 12:11
ByteDance introduceert Virtual Width Networks (VWN) voor efficiënte AI-schaalvergroting Dit nieuwe framework breidt de modelinvoerruimte uit voor bredere representaties terwijl de rekencapaciteit constant blijft. Het versnelt de optimalisatie met meer dan 2x voor next-token en 3x voor next-2-token voorspelling!
het is relatief goedkoop
29,9K