トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI は最近、GPT-2 以来初のオープンウェイト モデルをリリースし、DeepSeek とアリババの Qwen が主導する分野に参入しました。
Ankit (@GuptaAnkitV) は、これらのトップ OSS モデルを内部で分類し、推論と整合性を形作る専門家の混合、ロングコンテキストトレーニング、トレーニング後の手法、およびさまざまな設計の選択が驚くほど類似したパフォーマンスにつながる方法を含めます。
00:00 – OpenAI OSS のローンチ
01:00 – オープンソースのLLMアーキテクチャの比較
01:46 - GPT OSSの概要
02:37 - GPT OSSの内部
03:25 - Qwen-3 アーキテクチャ
04:17 – Qwen-3 トレーニング
05:12 – Qwen-3 トレーニング後
06:08 – Qwen-3: 推論と RL イノベーション
06:52 – DeepSeek V3 の概要
07:40 – DeepSeek V3.1 のアップデート
08:39 - アテンションメカニズム(MLA)
09:39 - モデルサイズの比較
10:35 - ロングコンテキスト戦略
11:25 – メソッドについての考察
12:00 – テイクアウト
2.55K
トップ
ランキング
お気に入り