分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Meta Superintelligence Labs は、LLM が 16 倍のコンテキストを処理できるようにし、最大 31 倍の高速化を実現しました。🤯 彼らの新しい REFRAG フレームワークは、これを実現するために RAG をゼロから再考し、精度を低下させません。仕組みは次のとおりです。長いコンテキストの中心的な問題は単純で、ドキュメントを 2 倍長くすると AI が 4 倍遅くなる可能性があります。これは、LLM のアテンションメカニズムが高価であるためです。そのコストとメモリ使用量は、テキストの長さとともに 2 次 (N²) 増加します。 REFRAGはこれを回避します。圧縮: 小型で軽量なエンコーダーが最初に取得したドキュメントを読み取ります。テキストの 16 トークンのチャンクごとに、セマンティックの本質を捉える「チャンク埋め込み」と呼ばれる単一の高密度ベクトルに圧縮します。短縮: メイン LLM には、生のトークンの代わりにこれらの埋め込みのシーケンスが供給されます。処理する必要がある入力は 16 倍短くなりました。加速: 入力シーケンスが非常に短いため、二次アテンションの計算は安価になり、KV キャッシュ (LLM のプライマリメモリホッグ) は小さくなります。これにより、30.85 倍のスピードアップが解除されます。選択: 精度を保証するために、強化学習 (RL) ポリシーが品質管理スーパーバイザーとして機能します。最も重要で情報密度の高いチャンクを特定し、それらを圧縮しないようにシステムに指示して、重要な詳細が確実に保持されるようにします。なぜこれが重要なのか: REFRAGは、ラージコンテキストRAGの約束を本番環境に実現します。ビジネスリーダー: これは、AI アプリケーションを収益性の高い方法で拡張する方法です。より強力な回答をユーザーに提供し、ページだけでなくレポート全体を分析しながら、より迅速かつ安価に行うことができます。実践者: 大規模なコンテキストと妥当なメモリバジェットのどちらかを選択する必要はもうありません。REFRAGを使用すると、両方を手に入れることができます。これは、アーキテクチャを変更することなく、アーキテクチャの勝利です。研究者: この研究は、アプリケーション固有のデータパターン (RAG のアテンションスパース性など) を使用してデコード戦略を共同設計することで、一般的な総当たりソリューションを超える結果が得られることを示しています。

トップ

ランキング

お気に入り