三篇核心:GEPA 在有限评估预算下实现 Agent 进化(最高分 paper),MemMachine 提出事实保真持久记忆系统解决 LLM 遗忘问题,SkillRT 通过技能编译实现跨平台高效执行。
一句话:在有限评估预算下进化多样化复杂 Agent——GEPA 证明 LLMs 可引导 Agentic 工件的高效进化,即使评估资源极度紧张。
核心思路:2026 年 LLM 引导的 Agent 进化引发热潮,GEPA 和 Autoresearch 等系统展示了 LLMs 在有限评估预算下生成多样化高性能 Agent 的潜力。核心挑战:评估成本高(每个候选需要大量测试),如何在预算约束下高效进化。GEPA 通过主动学习选择最具信息量的测试用例,减少评估次数同时保持进化效果。方法结合了 LLM 生成候选和主动测试选择,形成高效的闭环进化。
启发:评估成本是 Agent 进化的核心瓶颈——主动评估策略对实际部署有直接价值,也呼应了"极简评估"的方向。
一句话:通过共进化验证实现 Agent 技能自进化——探索 LLMs 在少样本情况下自主提升专业技能的能力边界。
核心思路:EvoSkills 研究 LLMs 在极其有限标注数据(少样本)下通过自进化提升专业技能。核心机制:共进化验证——Agent 在尝试任务的同时生成验证信号,反过来指导自身改进。附录中系外行星凌星周期检测案例展示了该方法在科学任务中的应用潜力。关键发现:在某些领域,自进化 Agent 可在零外部标注的情况下达到接近全监督的性能。
启发:自进化 + 共进化验证的组合值得关注,特别是对数据稀缺的领域。
一句话:用进化的 Agentic 系统进行红队测试——自主发现并验证 LLM 的安全边界,比静态红队方法覆盖更多攻击向量。
核心思路:红队测试是发现 LLM 安全漏洞的关键手段,但静态红队覆盖范围有限。AgenticRed 引入进化的 Agentic 系统进行自动化红队:多 Agent 分工协作,一部分负责探索新的攻击向量,另一部分负责验证漏洞有效性。关键发现:尽管在同一框架内运作,不同 Agent 配置在漏洞发现率上存在显著差异,说明 Agent 架构设计对红队效果影响很大。进化机制让系统能够自适应地发现新的攻击模式,而非依赖预定义的攻击库。
启发:安全测试本身也在被 Agent 化——进化的红队 Agent 与进化的防御 Agent 之间将形成持续的攻防博弈。
一句话:AI 加速 AI——用 LLM 驱动的自动化探索模型架构设计、科学假设发现,展示 ASI 对 AI 本身的加速效应。
核心思路:ASI-Evolve 探索 LLM 在科学发现中的元能力——不仅用 LLM 做任务,更用 LLM 来改进 LLM 本身。四个主任务:模型架构搜索(让 LLM 搜索更好的 Transformer 变体)、科学假设发现(自动生成并验证假说)、代码优化(LLM 改进 LLM 生成的代码)和数学推理(自我修正)。实验结果表明,ASI 驱动的探索在效率上显著优于人工设计基线。
启发:自我改进的闭环方向,展示了"AI 造 AI"的雏形——虽然目前阶段仍有局限,但方向值得关注。
一句话:提出保持事实连续性的持久记忆系统——解决 LLM Agent 在长程交互中遗忘关键事实、丧失个性化的核心问题。
核心思路:LLM Agent 需要持久记忆来维持个性化、事实连续性和长程任务表现。MemMachine 的核心创新在于"事实保真"机制:不是简单存储历史,而是主动识别并固化关键事实,防止在后续推理中被模型自己产生的噪声覆盖。设计包含记忆压缩(保留高价值信息,丢弃冗余)和记忆检索(基于当前任务动态组装记忆上下文)两个关键模块。实验覆盖个性化问答、多轮对话和长程代码生成等场景,验证了记忆系统在事实准确性和任务完成率上的双重提升。
启发:"记忆保真"这个角度很值得重视——模型自己生成的内容有时会"覆盖"原始事实,如何区分并保护关键信息是持久记忆设计的关键。
一句话:深度研究智能体(DRA)记忆系统综述——系统分析外部工具、LLM 推理与记忆系统的集成设计空间。
核心思路:Deep Research Agents 结合了 LLM 推理能力与外部工具调用,但如何在长期任务中保持一致性和效率仍是挑战。本文系统分析了记忆系统对 DRA 的必要性:从情景记忆(近期交互记录)到语义记忆(任务相关知识)再到工作记忆(当前状态维护),构建完整记忆层。核心创新在于记忆的动态检索与更新机制——根据任务上下文主动选择调用哪一层记忆,而非被动依赖全部历史。实验表明,带记忆的 DRA 在长程任务中显著优于无记忆基线。
启发:记忆不是越多越好——关键在于何时检索哪一层。这对构建真正"懂上下文"的 Agent 系统有直接指导意义。
一句话:RAG 还是微调?系统性分析 LLM 适应策略的边界——知识随时间漂移时哪种方法更鲁棒。
核心思路:事实、实体和事件随时间变化,模型可能经历"持续知识漂移",不仅导致过时预测,还造成时间不一致的推理。本文系统对比了 RAG(检索增强生成)和持续学习两种适应策略在知识漂移场景下的表现。研究发现:RAG 在快速更新知识方面更优(插入新文档即可),但在学习深层推理模式方面不如持续微调。关键发现:当知识漂移涉及推理链路的改变时,两种方法都存在局限——单纯检索无法解决推理模式过时的问题。
启发:RAG 和微调不是非此即彼——可能需要联合方案,或者根据知识类型(事实 vs 推理模式)选择不同策略。
一句话:技能编译优化 Agent 执行效率——在技能级、任务级和指令级三个粒度提取并行性,显著提升跨平台执行效率。
核心思路:SkillRT 研究如何让 Agent 技能在各种执行环境中高效运行。核心思想:从技能中提取三个粒度的并行性机会——技能内并行(单个技能内部的子任务可同时执行)、任务间并行(多个独立任务可分配给不同 Agent)、指令级并行(单个推理步骤中的多路并发)。显式将这些并行机会暴露给 Agent harness,运行时即可最大化资源利用率。实验在多种 Agent 任务上验证了效率提升。
启发:技能编译的思想很实用——将专家编写的技能流程编译为可优化的执行计划,比运行时动态解析更高效。
一句话:极简 Agent 设计的极致探索——Anthropic Claude Code 等案例表明,更少的中间步骤反而带来更强的 Agent 表现。
核心思路:本文探索一个反直觉的方向:减少 Agent 的中间推理步骤和工具调用,是否反而能提升性能?通过分析 Claude Code 等案例,研究者发现极简设计(更少的 CoT、更直接的工具调用)在特定任务上优于复杂的多步骤推理。核心假设:当模型足够强时,额外的推理中间层反而引入噪声和延迟。实验覆盖 Agentic 任务、推理任务和代码生成任务,验证了"少即是多"的有效性。
启发:模型能力的提升正在改变 Agent 设计的最佳实践——简单粗暴的端到端方法有时优于精心设计的中间步骤。但具体边界在哪里还需要更多研究。
一句话:结构化推理数据提升长上下文理解——通过显式建模文本结构信息,帮助 LLM 在超长上下文中更准确地定位和推理关键信息。
核心思路:LLM 在处理越来越长的上下文(现代系统已达百万 token 量级)时仍面临挑战:大海捞针能力不等于有效理解。本文提出"结构化推理数据"方法:不是直接喂入原始长文本,而是在预训练/微调数据中显式建模文本的结构信息(章节关系、逻辑依赖、关键实体分布等),让模型学会"按结构推理"而非"线性扫描"。实验在多个长上下文 benchmark 上验证了方法的有效性,特别是涉及跨文档的信息整合任务。
启发:长上下文模型的瓶颈可能不是容量,而是利用率——教会模型"读懂结构"比单纯扩展上下文窗口更重要。