OpenAI släppte nyligen sin första modell med öppna vikter sedan GPT-2 och gick in i ett område som leds av DeepSeek och Alibabas Qwen. Ankit (@GuptaAnkitV) bryter ner dessa toppmodeller för OSS, inklusive vad som skiljer dem åt under huven: blandning av experter, utbildning med lång kontext och tekniker efter träning som formar resonemang och anpassning – och hur olika designval leder till förvånansvärt liknande prestanda. 00:00 – Lansering av OpenAI OSS 01:00 - Jämföra LLM-arkitekturer med öppen källkod 01:46 - GPT OSS-översikt 02:37 - Under huven på GPT OSS 03:25 - Qwen-3 Arkitektur 04:17 - Qwen-3 Träning 05:12 – Qwen-3 Efter träningen 06:08 - Qwen-3 Resonemang & RL Innovationer 06:52 - DeepSeek V3 Översikt 07:40 - DeepSeek V3.1 Uppdateringar 08:39 - Uppmärksamhet mekanism (MLA) 09:39 - Jämföra modellstorlekar 10:35 - Långa kontextstrategier 11:25 - Reflektioner om metoder 12:00 – Hämtmat
2,54K