«GHC вводить гнучкий механізм, який за допомогою легких обчислень стискає приховані стани з надширокою шириною до магістралі перед поданням їх у модулі уваги або feed-forward, а потім розширює вихід модуля назад до Over -Width» Божевільна нахабність
DailyPapers
DailyPapers17 лист., 12:11
ByteDance впроваджує віртуальні мережі ширини (VWN) для ефективного масштабування ШІ Цей новий фреймворк розширює простір для вкладення моделей для ширших представлень, залишаючи при цьому обчислення сталим. Це прискорює оптимізацію більш ніж у 2 рази для next-token і у 3x для прогнозування next-2-token!
Він відносно дешевий
33,28K