HF Papers Archive

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Date: 2026-02-27Fetched: 2026-02-28T01:46:52.289029+00:00

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

EMPO² 是一种混合强化学习框架，通过整合记忆机制与 on-policy 和 off-policy 更新来增强大语言模型智能体的探索能力，并在复杂环境中展现出改进的性能和适应性。