Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI hat kürzlich sein erstes Modell mit offenen Gewichten seit GPT-2 veröffentlicht und betritt ein Feld, das von DeepSeek und Alibabas Qwen angeführt wird.
Ankit (@GuptaAnkitV) analysiert diese Top-OSS-Modelle, einschließlich der Unterschiede, die sie im Inneren auszeichnen: Mischung von Experten, Training mit langem Kontext und Nachtrainingstechniken, die das Denken und die Ausrichtung prägen – und wie unterschiedliche Designentscheidungen zu überraschend ähnlichen Leistungen führen.
00:00 – OpenAI OSS Launch
01:00 – Vergleich von Open Source LLM-Architekturen
01:46 – GPT OSS Übersicht
02:37 – Unter der Haube von GPT OSS
03:25 – Qwen-3 Architektur
04:17 – Qwen-3 Training
05:12 – Qwen-3 Nachtraining
06:08 – Qwen-3 Denken & RL-Innovationen
06:52 – DeepSeek V3 Übersicht
07:40 – DeepSeek V3.1 Updates
08:39 – Aufmerksamkeitsmechanismus (MLA)
09:39 – Vergleich der Modellgrößen
10:35 – Strategien für langen Kontext
11:25 – Reflexionen über Methoden
12:00 – Erkenntnisse
2,53K
Top
Ranking
Favoriten