RLHF 再也不需要人类了!谷歌团队研究证明,AI 标注已达人类水平
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也能取得与 RLHF 相同的效果。研究人员通过比较 RLAIF 和 RLHF 的胜率发现,它们的受欢迎程度是等同的,都为 50%。这项研究证明了 RLAIF 可以在不依赖人类标注者的情况下产生与 RLHF 相当的改进效果。
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也能取得与 RLHF 相同的效果。研究人员通过比较 RLAIF 和 RLHF 的胜率发现,它们的受欢迎程度是等同的,都为 50%。这项研究证明了 RLAIF 可以在不依赖人类标注者的情况下产生与 RLHF 相当的改进效果。
发表评论