OpenAI は最近、GPT-2 以来初のオープンウェイト モデルをリリースし、DeepSeek とアリババの Qwen が主導する分野に参入しました。 Ankit (@GuptaAnkitV) は、これらのトップ OSS モデルを内部で分類し、推論と整合性を形作る専門家の混合、ロングコンテキストトレーニング、トレーニング後の手法、およびさまざまな設計の選択が驚くほど類似したパフォーマンスにつながる方法を含めます。 00:00 – OpenAI OSS のローンチ 01:00 – オープンソースのLLMアーキテクチャの比較 01:46 - GPT OSSの概要 02:37 - GPT OSSの内部 03:25 - Qwen-3 アーキテクチャ 04:17 – Qwen-3 トレーニング 05:12 – Qwen-3 トレーニング後 06:08 – Qwen-3: 推論と RL イノベーション 06:52 – DeepSeek V3 の概要 07:40 – DeepSeek V3.1 のアップデート 08:39 - アテンションメカニズム(MLA) 09:39 - モデルサイズの比較 10:35 - ロングコンテキスト戦略 11:25 – メソッドについての考察 12:00 – テイクアウト
2.55K