强化学习提升了 LLM 各方面的能力,而强化学习本身也在进化。
论文标题:SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks 论文地址:https://arxiv.org/pdf/2503.15478 代码地址:https://github.com/facebookresearch/sweet_rl
应具有足够的任务复杂性,可以挑战智能体的推理和泛化能力。 尽可能地降低开销,以支持快速研究原型设计。 应该有足够的任务多样性,以便在 RL 训练时不会过拟合。