OpenAI heeft onlangs zijn eerste open-gewichten model sinds GPT-2 uitgebracht, waarmee het een veld betreedt dat wordt geleid door DeepSeek en Alibaba's Qwen.
Ankit (@GuptaAnkitV) legt deze top OSS-modellen uit, inclusief wat ze onder de motorkap onderscheidt: mengsel van experts, training met lange context en post-training technieken die redenering en afstemming vormgeven—en hoe verschillende ontwerpkeuzes leiden tot verrassend vergelijkbare prestaties.
00:00 – OpenAI OSS Lancering
01:00 – Vergelijken van Open Source LLM Architecturen
01:46 – GPT OSS Overzicht
02:37 – Onder de Motorkap van GPT OSS
03:25 – Qwen-3 Architectuur
04:17 – Qwen-3 Training
05:12 – Qwen-3 Post-Training
06:08 – Qwen-3 Redenering & RL Innovaties
06:52 – DeepSeek V3 Overzicht
07:40 – DeepSeek V3.1 Updates
08:39 – Aandacht Mechanisme (MLA)
09:39 – Vergelijken van Modelgroottes
10:35 – Lange Context Strategieën
11:25 – Reflecties op Methoden
12:00 – Belangrijkste Punten
Een gerandomiseerde proef van oogzorg door oogartsen met A.I. versus oogartsen zonder A.I. toonde een veel hogere nauwkeurigheid in de diagnose (92 vs 74%) en vele andere verbeterde uitkomsten @NatureMedicine