OpenAI hat kürzlich sein erstes Modell mit offenen Gewichten seit GPT-2 veröffentlicht und betritt ein Feld, das von DeepSeek und Alibabas Qwen angeführt wird. Ankit (@GuptaAnkitV) analysiert diese Top-OSS-Modelle, einschließlich der Unterschiede, die sie im Inneren auszeichnen: Mischung von Experten, Training mit langem Kontext und Nachtrainingstechniken, die das Denken und die Ausrichtung prägen – und wie unterschiedliche Designentscheidungen zu überraschend ähnlichen Leistungen führen. 00:00 – OpenAI OSS Launch 01:00 – Vergleich von Open Source LLM-Architekturen 01:46 – GPT OSS Übersicht 02:37 – Unter der Haube von GPT OSS 03:25 – Qwen-3 Architektur 04:17 – Qwen-3 Training 05:12 – Qwen-3 Nachtraining 06:08 – Qwen-3 Denken & RL-Innovationen 06:52 – DeepSeek V3 Übersicht 07:40 – DeepSeek V3.1 Updates 08:39 – Aufmerksamkeitsmechanismus (MLA) 09:39 – Vergleich der Modellgrößen 10:35 – Strategien für langen Kontext 11:25 – Reflexionen über Methoden 12:00 – Erkenntnisse
2,53K