Нещодавно OpenAI випустила свою першу модель з відкритими вагами з часів GPT-2, вийшовши на поле, яке очолюють DeepSeek і Qwen від Alibaba. Ankit (@GuptaAnkitV) розбиває ці найкращі моделі OSS, включаючи те, що відрізняє їх під капотом: суміш експертів, навчання з тривалим контекстом і техніки після тренування, які формують міркування та узгодження, а також те, як різні варіанти дизайну призводять до напрочуд схожої продуктивності. 00:00 – Запуск OpenAI OSS 01:00 – Порівняння архітектур LLM з відкритим вихідним кодом 01:46 – Огляд GPT OSS 02:37 – Під капотом GPT OSS 03:25 – Архітектура Qwen-3 04:17 – Тренування Qwen-3 05:12 – Qwen-3 після тренування 06:08 – Qwen-3 Міркування та інновації RL 06:52 - Огляд DeepSeek V3 07:40 – Оновлення DeepSeek V3.1 08:39 – Механізм уваги (MLA) 09:39 – Порівняння розмірів моделей 10:35 – Стратегії з довгим контекстом 11:25 – Роздуми про методи 12:00 – Їжа на винос
2,56K