DeepMind 研究人员提出 ReST 算法:用于调整 LLM 与人类偏好对齐
DeepMind 研究人员提出了 ReST 算法,通过成长式批量强化学习将大型语言模型与人类偏好对齐。ReST 使用基于奖励模型的评分函数对策略生成的样本进行过滤,并通过内循环的离线强化学习目标进行策略优化。该算法有助于提高语言模型在各种任务上的性能和安全性。
DeepMind 研究人员提出了 ReST 算法,通过成长式批量强化学习将大型语言模型与人类偏好对齐。ReST 使用基于奖励模型的评分函数对策略生成的样本进行过滤,并通过内循环的离线强化学习目标进行策略优化。该算法有助于提高语言模型在各种任务上的性能和安全性。
发表评论