热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Meta 超智能实验室刚刚让 LLM 处理 16 倍的上下文,并解锁了高达 31 倍的速度提升。🤯
他们的新 REFRAG 框架从根本上重新思考了 RAG,以实现这一目标,且准确性没有下降。
它是如何工作的:
长上下文的核心问题很简单:将文档加长 2 倍可能会使你的 AI 慢 4 倍。
这是因为 LLM 的注意力机制成本高昂。其成本和内存使用量随着文本长度的平方(N²)增长。
REFRAG 避开了这个问题。
压缩:一个小型、轻量级的编码器首先读取检索到的文档。它将每 16 个标记的文本块压缩成一个称为 "块嵌入" 的单一密集向量,捕捉语义本质。
缩短:然后将这些嵌入的序列输入主 LLM,而不是原始标记。它需要处理的输入现在短了 16 倍。
加速:由于输入序列如此短,二次注意力计算的成本更低,KV 缓存(LLM 中的主要内存消耗者)也更小。这就是解锁 30.85 倍速度提升的原因。
选择:为了保证准确性,强化学习(RL)策略充当质量控制监督者。它识别出最关键、信息密集的块,并告诉系统不要压缩它们,确保关键细节得以保留。
这为什么重要:
REFRAG 使大上下文 RAG 的承诺成为生产现实。
商业领袖:这就是如何以盈利的方式扩展 AI 应用程序。为用户提供更强大的答案,分析整个报告,而不仅仅是页面,同时更快且更便宜。
从业者:你不再需要在大上下文和合理的内存预算之间做出选择。REFRAG 让你两者兼得。这是一个架构上的胜利,而无需架构变更。
研究人员:这项工作表明,与特定应用数据模式(如 RAG 的注意力稀疏性)共同设计解码策略,能够产生超越通用、蛮力解决方案的结果。

热门
排行
收藏