Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI släppte nyligen sin första modell med öppna vikter sedan GPT-2 och gick in i ett område som leds av DeepSeek och Alibabas Qwen.
Ankit (@GuptaAnkitV) bryter ner dessa toppmodeller för OSS, inklusive vad som skiljer dem åt under huven: blandning av experter, utbildning med lång kontext och tekniker efter träning som formar resonemang och anpassning – och hur olika designval leder till förvånansvärt liknande prestanda.
00:00 – Lansering av OpenAI OSS
01:00 - Jämföra LLM-arkitekturer med öppen källkod
01:46 - GPT OSS-översikt
02:37 - Under huven på GPT OSS
03:25 - Qwen-3 Arkitektur
04:17 - Qwen-3 Träning
05:12 – Qwen-3 Efter träningen
06:08 - Qwen-3 Resonemang & RL Innovationer
06:52 - DeepSeek V3 Översikt
07:40 - DeepSeek V3.1 Uppdateringar
08:39 - Uppmärksamhet mekanism (MLA)
09:39 - Jämföra modellstorlekar
10:35 - Långa kontextstrategier
11:25 - Reflektioner om metoder
12:00 – Hämtmat
2,54K
Topp
Rankning
Favoriter