斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了 - AI前沿

首页 > AI技术

斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了

6 月 06, 2025 AI前沿

2 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

斯坦福研究人员提出一种新方法，通过训练模型遗忘有害任务信息，从而防止大模型被恶意改造。他们使用元学习和对抗学习的算法训练了一种称为「自毁模型」的模型，该模型在有益任务上表现良好，但在有害任务上会变差。实验证明，自毁模型能够有效阻止模型适应有害任务，并且比简单对抗训练法效果更好。这项研究为防止大模型作恶提供了新的技术策略，增加了模型恶意改造的成本。

大模型模型安全自毁模型

发表评论

取消回复