一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Meta 超智能实验室刚刚让 LLM 处理 16 倍的上下文，并解锁了高达 31 倍的速度提升。🤯 他们的新 REFRAG 框架从根本上重新思考了 RAG，以实现这一目标，且准确性没有下降。它是如何工作的：长上下文的核心问题很简单：将文档加长 2 倍可能会使你的 AI 慢 4 倍。这是因为 LLM 的注意力机制成本高昂。其成本和内存使用量随着文本长度的平方（N²）增长。 REFRAG 避开了这个问题。压缩：一个小型、轻量级的编码器首先读取检索到的文档。它将每 16 个标记的文本块压缩成一个称为 "块嵌入" 的单一密集向量，捕捉语义本质。缩短：然后将这些嵌入的序列输入主 LLM，而不是原始标记。它需要处理的输入现在短了 16 倍。加速：由于输入序列如此短，二次注意力计算的成本更低，KV 缓存（LLM 中的主要内存消耗者）也更小。这就是解锁 30.85 倍速度提升的原因。选择：为了保证准确性，强化学习（RL）策略充当质量控制监督者。它识别出最关键、信息密集的块，并告诉系统不要压缩它们，确保关键细节得以保留。这为什么重要： REFRAG 使大上下文 RAG 的承诺成为生产现实。商业领袖：这就是如何以盈利的方式扩展 AI 应用程序。为用户提供更强大的答案，分析整个报告，而不仅仅是页面，同时更快且更便宜。从业者：你不再需要在大上下文和合理的内存预算之间做出选择。REFRAG 让你两者兼得。这是一个架构上的胜利，而无需架构变更。研究人员：这项工作表明，与特定应用数据模式（如 RAG 的注意力稀疏性）共同设计解码策略，能够产生超越通用、蛮力解决方案的结果。