DeepMind 研究人员提出 ReST 算法:用于调整 LLM 与人类偏好对齐

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

DeepMind 研究人员提出了 ReST 算法,通过成长式批量强化学习将大型语言模型与人类偏好对齐。ReST 使用基于奖励模型的评分函数对策略生成的样本进行过滤,并通过内循环的离线强化学习目标进行策略优化。该算法有助于提高语言模型在各种任务上的性能和安全性。

发表评论