Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI a lansat recent primul său model open-weights de la GPT-2, intrând într-un domeniu condus de DeepSeek și Qwen de la Alibaba.
Ankit (@GuptaAnkitV) detaliază aceste modele OSS de top, inclusiv ceea ce le diferențiază sub capotă: amestec de experți, antrenament cu context lung și tehnici post-antrenament care modelează raționamentul și alinierea - și modul în care diferitele alegeri de design duc la performanțe surprinzător de similare.
00:00 – Lansarea OpenAI OSS
01:00 – Compararea arhitecturilor LLM open source
01:46 – Prezentare generală GPT OSS
02:37 – Sub capota GPT OSS
03:25 – Arhitectura Qwen-3
04:17 – Antrenament Qwen-3
05:12 – Qwen-3 Post-antrenament
06:08 – Qwen-3 Raționament și inovații RL
06:52 – Prezentare generală DeepSeek V3
07:40 – Actualizări DeepSeek V3.1
08:39 – Mecanismul de atenție (MLA)
09:39 – Compararea dimensiunilor modelului
10:35 – Strategii de context lung
11:25 – Reflecții asupra metodelor
12:00 – Takeaways
2,53K
Limită superioară
Clasament
Favorite