OpenAI heeft onlangs zijn eerste open-gewichten model sinds GPT-2 uitgebracht, waarmee het een veld betreedt dat wordt geleid door DeepSeek en Alibaba's Qwen. Ankit (@GuptaAnkitV) legt deze top OSS-modellen uit, inclusief wat ze onder de motorkap onderscheidt: mengsel van experts, training met lange context en post-training technieken die redenering en afstemming vormgeven—en hoe verschillende ontwerpkeuzes leiden tot verrassend vergelijkbare prestaties. 00:00 – OpenAI OSS Lancering 01:00 – Vergelijken van Open Source LLM Architecturen 01:46 – GPT OSS Overzicht 02:37 – Onder de Motorkap van GPT OSS 03:25 – Qwen-3 Architectuur 04:17 – Qwen-3 Training 05:12 – Qwen-3 Post-Training 06:08 – Qwen-3 Redenering & RL Innovaties 06:52 – DeepSeek V3 Overzicht 07:40 – DeepSeek V3.1 Updates 08:39 – Aandacht Mechanisme (MLA) 09:39 – Vergelijken van Modelgroottes 10:35 – Lange Context Strategieën 11:25 – Reflecties op Methoden 12:00 – Belangrijkste Punten
2,49K