Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Нещодавно OpenAI випустила свою першу модель з відкритими вагами з часів GPT-2, вийшовши на поле, яке очолюють DeepSeek і Qwen від Alibaba.
Ankit (@GuptaAnkitV) розбиває ці найкращі моделі OSS, включаючи те, що відрізняє їх під капотом: суміш експертів, навчання з тривалим контекстом і техніки після тренування, які формують міркування та узгодження, а також те, як різні варіанти дизайну призводять до напрочуд схожої продуктивності.
00:00 – Запуск OpenAI OSS
01:00 – Порівняння архітектур LLM з відкритим вихідним кодом
01:46 – Огляд GPT OSS
02:37 – Під капотом GPT OSS
03:25 – Архітектура Qwen-3
04:17 – Тренування Qwen-3
05:12 – Qwen-3 після тренування
06:08 – Qwen-3 Міркування та інновації RL
06:52 - Огляд DeepSeek V3
07:40 – Оновлення DeepSeek V3.1
08:39 – Механізм уваги (MLA)
09:39 – Порівняння розмірів моделей
10:35 – Стратегії з довгим контекстом
11:25 – Роздуми про методи
12:00 – Їжа на винос
2,56K
Найкращі
Рейтинг
Вибране