谷歌：让 LLM 智能体“越用越强”的记忆与推理框架 ReasoningBank

这篇论文提出了一个让 LLM 智能体“越用越强”的记忆与推理框架 ReasoningBank，并配套一种记忆感知的测试时扩展方法 MaTTS（Memory-aware Test-Time Scaling）。核心思想是：不再简单存“原始轨迹”或只记“成功套路”，而是从成功与失败的历史交互中蒸馏可迁移的推理策略，在新任务时检索并应用，再把新的经验回灌，形成闭环自进化。

做了什么（方法）

ReasoningBank 记忆单元：把经验提炼成结构化三元组（title/description/content），记录抽象的策略与决策依据，而非冗长步骤。

自评与蒸馏：无需标注数据，使用“LLM 当裁判（LLM-as-a-Judge）”产生正确性信号，从成功与失败两类轨迹中提炼策略。

MaTTS：在测试时增加对单一任务的探索“深度”，生成更丰富且有对比性的经验，再由记忆蒸馏提升记忆质量，记忆反过来引导更有效的扩展，形成记忆 × 测试时扩展的正反馈。

实验与结果

基准：WebArena、Mind2Web（网页代理任务）与 SWE-Bench-Verified（代码修复）。骨干模型含 Gemini-2.5、Claude-3.7（BrowserGym 环境）。

效果：相对提升最高 +34.2%，交互步数减少 16%；ReasoningBank 与 MaTTS 叠加最佳。

进一步分析显示：记忆项会在使用中涌现并进化（从操作规则→自检→组合策略）；纳入失败轨迹可显著提升泛化与稳健性。

相对以往工作的关键区别

不再“只存成功模板”或“整段轨迹复用”，而是抽象可迁移的推理单元；首次系统化探讨将记忆纳入测试时扩展，把“算力扩展”与“经验/记忆扩展”耦合为新的尺度维度。

对工程实践的启发（简要）

设计记忆时，优先存策略而非步骤，并明确 schema（标题/描述/内容）。

让智能体在推理后进行自评与失败归因，把失败当作一等公民纳入记忆。

做多样化的测试时采样（best-of-N/并行或顺序探索），但用记忆引导以提高样本效率与稳定收益。

论文：https://arxiv.org/abs/2509.25140

本文链接：https://www.19150.com/paper/22084.html

谷歌：让 LLM 智能体“越用越强”的记忆与推理框架 ReasoningBank

相关推荐