热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
OpenAI 最近发布了自 GPT-2 以来的第一个开放权重模型,进入了由 DeepSeek 和阿里巴巴的 Qwen 领导的领域。
Ankit (@GuptaAnkitV) 分析了这些顶级开源软件模型,包括它们在底层的不同之处:专家混合、长上下文训练和塑造推理与对齐的后训练技术——以及不同的设计选择如何导致意外相似的性能。
00:00 – OpenAI OSS 发布
01:00 – 比较开源 LLM 架构
01:46 – GPT OSS 概述
02:37 – GPT OSS 的底层
03:25 – Qwen-3 架构
04:17 – Qwen-3 训练
05:12 – Qwen-3 后训练
06:08 – Qwen-3 推理与强化学习创新
06:52 – DeepSeek V3 概述
07:40 – DeepSeek V3.1 更新
08:39 – 注意机制 (MLA)
09:39 – 比较模型大小
10:35 – 长上下文策略
11:25 – 方法反思
12:00 – 关键要点
2.55K
热门
排行
收藏