Meta Superintelligence Labs は、LLM が 16 倍のコンテキストを処理できるようにし、最大 31 倍の高速化を実現しました。🤯 彼らの新しい REFRAG フレームワークは、これを実現するために RAG をゼロから再考し、精度を低下させません。 仕組みは次のとおりです。 長いコンテキストの中心的な問題は単純で、ドキュメントを 2 倍長くすると AI が 4 倍遅くなる可能性があります。 これは、LLM のアテンション メカニズムが高価であるためです。そのコストとメモリ使用量は、テキストの長さとともに 2 次 (N²) 増加します。 REFRAGはこれを回避します。 圧縮: 小型で軽量なエンコーダーが最初に取得したドキュメントを読み取ります。テキストの 16 トークンのチャンクごとに、セマンティックの本質を捉える「チャンク埋め込み」と呼ばれる単一の高密度ベクトルに圧縮します。 短縮: メイン LLM には、生のトークンの代わりにこれらの埋め込みのシーケンスが供給されます。処理する必要がある入力は 16 倍短くなりました。 加速: 入力シーケンスが非常に短いため、二次アテンションの計算は安価になり、KV キャッシュ (LLM のプライマリ メモリ ホッグ) は小さくなります。これにより、30.85 倍のスピードアップが解除されます。 選択: 精度を保証するために、強化学習 (RL) ポリシーが品質管理スーパーバイザーとして機能します。最も重要で情報密度の高いチャンクを特定し、それらを圧縮しないようにシステムに指示して、重要な詳細が確実に保持されるようにします。 なぜこれが重要なのか: REFRAGは、ラージコンテキストRAGの約束を本番環境に実現します。 ビジネスリーダー: これは、AI アプリケーションを収益性の高い方法で拡張する方法です。より強力な回答をユーザーに提供し、ページだけでなくレポート全体を分析しながら、より迅速かつ安価に行うことができます。 実践者: 大規模なコンテキストと妥当なメモリ バジェットのどちらかを選択する必要はもうありません。REFRAGを使用すると、両方を手に入れることができます。これは、アーキテクチャを変更することなく、アーキテクチャの勝利です。 研究者: この研究は、アプリケーション固有のデータパターン (RAG のアテンション スパース性など) を使用してデコード戦略を共同設計することで、一般的な総当たりソリューションを超える結果が得られることを示しています。