斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

斯坦福研究人员提出一种新方法,通过训练模型遗忘有害任务信息,从而防止大模型被恶意改造。他们使用元学习和对抗学习的算法训练了一种称为「自毁模型」的模型,该模型在有益任务上表现良好,但在有害任务上会变差。实验证明,自毁模型能够有效阻止模型适应有害任务,并且比简单对抗训练法效果更好。这项研究为防止大模型作恶提供了新的技术策略,增加了模型恶意改造的成本。

发表评论