OpenAI 最近發布了自 GPT-2 以來的第一個開放權重模型,進入了由 DeepSeek 和阿里巴巴的 Qwen 領導的領域。 Ankit (@GuptaAnkitV) 分析了這些頂級開源軟體模型,包括它們在底層的不同之處:專家混合、長上下文訓練和塑造推理與對齊的後訓練技術——以及不同的設計選擇如何導致意外相似的性能。 00:00 – OpenAI OSS 發布 01:00 – 比較開源 LLM 架構 01:46 – GPT OSS 概述 02:37 – GPT OSS 的底層 03:25 – Qwen-3 架構 04:17 – Qwen-3 訓練 05:12 – Qwen-3 後訓練 06:08 – Qwen-3 推理與強化學習創新 06:52 – DeepSeek V3 概述 07:40 – DeepSeek V3.1 更新 08:39 – 注意機制 (MLA) 09:39 – 比較模型大小 10:35 – 長上下文策略 11:25 – 方法反思 12:00 – 關鍵要點
2.55K