DeepMind 研究人员提出 ReST 算法：用于调整 LLM 与人类偏好对齐

6 月 06, 2025 AI前沿

21 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

DeepMind 研究人员提出了 ReST 算法，通过成长式批量强化学习将大型语言模型与人类偏好对齐。ReST 使用基于奖励模型的评分函数对策略生成的样本进行过滤，并通过内循环的离线强化学习目标进行策略优化。该算法有助于提高语言模型在各种任务上的性能和安全性。

导航菜单