RLHF 再也不需要人类了!谷歌团队研究证明,AI 标注已达人类水平

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也能取得与 RLHF 相同的效果。研究人员通过比较 RLAIF 和 RLHF 的胜率发现,它们的受欢迎程度是等同的,都为 50%。这项研究证明了 RLAIF 可以在不依赖人类标注者的情况下产生与 RLHF 相当的改进效果。

发表评论