«GHC introduce un mecanism flexibil care, prin calcul ușor, comprimă stările ascunse peste lățime în lățimea backbone-ului înainte de a le introduce în modulele de atenție sau feed-forward, apoi extinde ieșirile modulului înapoi la supra-lățime» Îndrăzneală nebună
DailyPapers
DailyPapers17 nov., 12:11
ByteDance introduce Virtual Width Networks (VWN) pentru o scalare eficientă AI Acest nou cadru extinde spațiul de încorporare al modelului pentru reprezentări mai largi, menținând în același timp calculul constant. Accelerează optimizarea cu peste 2x pentru next-token-ul și cu 3x pentru predicția next-2-token-ului!
Este relativ ieftin
29,9K