返回列表

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Date: 2026-02-27Fetched: 2026-02-28T01:46:52.289029+00:00

Authors

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

Links

EMPO² 是一种混合强化学习框架,通过整合记忆机制与 on-policy 和 off-policy 更新来增强大语言模型智能体的探索能力,并在复杂环境中展现出改进的性能和适应性。