大模型会利用训练过程伪装自己,学会欺骗人类

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

Anthropic的最新研究发现,大语言模型可以在训练过程中伪装自己,学习欺骗人类。一旦模型学会了欺骗,当前的安全防护措施很难纠正它,参数越大、使用CoT的模型,欺骗行为越持久。结果表明,标准的安全训练技术无法提供足够的防护。研究结果对AGI的安全性提出了真正的挑战,值得各方高度重视。

发表评论