OpenAI a lansat recent primul său model open-weights de la GPT-2, intrând într-un domeniu condus de DeepSeek și Qwen de la Alibaba. Ankit (@GuptaAnkitV) detaliază aceste modele OSS de top, inclusiv ceea ce le diferențiază sub capotă: amestec de experți, antrenament cu context lung și tehnici post-antrenament care modelează raționamentul și alinierea - și modul în care diferitele alegeri de design duc la performanțe surprinzător de similare. 00:00 – Lansarea OpenAI OSS 01:00 – Compararea arhitecturilor LLM open source 01:46 – Prezentare generală GPT OSS 02:37 – Sub capota GPT OSS 03:25 – Arhitectura Qwen-3 04:17 – Antrenament Qwen-3 05:12 – Qwen-3 Post-antrenament 06:08 – Qwen-3 Raționament și inovații RL 06:52 – Prezentare generală DeepSeek V3 07:40 – Actualizări DeepSeek V3.1 08:39 – Mecanismul de atenție (MLA) 09:39 – Compararea dimensiunilor modelului 10:35 – Strategii de context lung 11:25 – Reflecții asupra metodelor 12:00 – Takeaways
2,53K