Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization
Authors
Links
26
EMPO² 是一种混合强化学习框架,通过整合记忆机制与 on-policy 和 off-policy 更新来增强大语言模型智能体的探索能力,并在复杂环境中展现出改进的性能和适应性。
EMPO² 是一种混合强化学习框架,通过整合记忆机制与 on-policy 和 off-policy 更新来增强大语言模型智能体的探索能力,并在复杂环境中展现出改进的性能和适应性。