Працюємо над новим Open Source Grok 2.5! Ми вже змогли це зробити Hot Rod!! Це ранні дні, і він може вийти з ладу, але ми маємо: 268B MoE, 131k контекст, 8 експертів, RoPE, 64 головки уваги GQA з 8 головками KV, 64 шари. У будь-який момент часу нормально активні лише 2 експерти. Ми знайшли спосіб активувати 4 одночасно лише з невеликим падінням продуктивності, лише приблизно на 1/3 більше пам'яті графічного процесора та дивовижним збільшенням якості на виході! Якщо він витримає наші тести, я опублікую детальну інструкцію!
Brian Roemmele
Brian Roemmele24 серп., 09:08
Незабаром я буду переписувати цю статтю, щоб використовувати компактну версію НОВОГО БЕЗКОШТОВНОГО ВІДКРИТОГО ВИХІДНОГО КОДУ @xai @Grok 2.5! Я покажу вам, як точно налаштувати модель на ваших даних для приватного використання не в хмарі на вашому комп'ютері. Це значно покращить якість! Працюючи над цим...
45,77K