谷歌:让 LLM 智能体“越用越强”的记忆与推理框架 ReasoningBank
这篇论文提出了一个让 LLM 智能体“越用越强”的记忆与推理框架 ReasoningBank,并配套一种 记忆感知的测试时扩展方法 MaTTS(Memory-aware Test-Time Scaling)。核心思想是:不再简单存“原始轨迹”或只记“成功套路”,而是从成功与失败的历史交互中蒸馏可迁移的推理策略,在新任务时检索并应用,再把新的经验回灌,形成闭环自进化。
做了什么(方法)
ReasoningBank 记忆单元:把经验提炼成结构化三元组(title/description/content),记录抽象的策略与决策依据,而非冗长步骤。
自评与蒸馏:无需标注数据,使用“LLM 当裁判(LLM-as-a-Judge)”产生正确性信号,从成功与失败两类轨迹中提炼策略。
MaTTS:在测试时增加对单一任务的探索“深度”,生成更丰富且有对比性的经验,再由记忆蒸馏提升记忆质量,记忆反过来引导更有效的扩展,形成记忆 × 测试时扩展的正反馈。
实验与结果
基准:WebArena、Mind2Web(网页代理任务)与 SWE-Bench-Verified(代码修复)。骨干模型含 Gemini-2.5、Claude-3.7(BrowserGym 环境)。
效果:相对提升最高 +34.2%,交互步数减少 16%;ReasoningBank 与 MaTTS 叠加最佳。
进一步分析显示:记忆项会在使用中涌现并进化(从操作规则→自检→组合策略);纳入失败轨迹可显著提升泛化与稳健性。
相对以往工作的关键区别
不再“只存成功模板”或“整段轨迹复用”,而是抽象可迁移的推理单元;首次系统化探讨将记忆纳入测试时扩展,把“算力扩展”与“经验/记忆扩展”耦合为新的尺度维度。
对工程实践的启发(简要)
设计记忆时,优先存策略而非步骤,并明确 schema(标题/描述/内容)。
让智能体在推理后进行自评与失败归因,把失败当作一等公民纳入记忆。
做多样化的测试时采样(best-of-N/并行或顺序探索),但用记忆引导以提高样本效率与稳定收益。
论文:https://arxiv.org/abs/2509.25140
本文链接:https://www.19150.com/paper/22084.html