«GHC вводит гибкий механизм, который с помощью легких вычислений сжимает скрытые состояния с избыточной шириной до ширины основного каркаса перед подачей их в модули внимания или прямой передачи, а затем расширяет выходы модулей обратно до избыточной ширины» сумасшедшая наглость
DailyPapers
DailyPapers17 нояб., 12:11
ByteDance представляет Виртуальные Широкие Сети (VWN) для эффективного масштабирования ИИ Эта новая структура расширяет пространство встраивания модели для более широких представлений, сохраняя при этом постоянные вычисления. Она ускоряет оптимизацию более чем в 2 раза для предсказания следующего токена и в 3 раза для предсказания следующих двух токенов!
это относительно дешево
31,98K