Meta 超智能实验室刚刚让 LLM 处理 16 倍的上下文,并解锁了高达 31 倍的速度提升。🤯 他们的新 REFRAG 框架从根本上重新思考了 RAG,以实现这一目标,且准确性没有下降。 它是如何工作的: 长上下文的核心问题很简单:将文档加长 2 倍可能会使你的 AI 慢 4 倍。 这是因为 LLM 的注意力机制成本高昂。其成本和内存使用量随着文本长度的平方(N²)增长。 REFRAG 避开了这个问题。 压缩:一个小型、轻量级的编码器首先读取检索到的文档。它将每 16 个标记的文本块压缩成一个称为 "块嵌入" 的单一密集向量,捕捉语义本质。 缩短:然后将这些嵌入的序列输入主 LLM,而不是原始标记。它需要处理的输入现在短了 16 倍。 加速:由于输入序列如此短,二次注意力计算的成本更低,KV 缓存(LLM 中的主要内存消耗者)也更小。这就是解锁 30.85 倍速度提升的原因。 选择:为了保证准确性,强化学习(RL)策略充当质量控制监督者。它识别出最关键、信息密集的块,并告诉系统不要压缩它们,确保关键细节得以保留。 这为什么重要: REFRAG 使大上下文 RAG 的承诺成为生产现实。 商业领袖:这就是如何以盈利的方式扩展 AI 应用程序。为用户提供更强大的答案,分析整个报告,而不仅仅是页面,同时更快且更便宜。 从业者:你不再需要在大上下文和合理的内存预算之间做出选择。REFRAG 让你两者兼得。这是一个架构上的胜利,而无需架构变更。 研究人员:这项工作表明,与特定应用数据模式(如 RAG 的注意力稀疏性)共同设计解码策略,能够产生超越通用、蛮力解决方案的结果。