Anthropic强化AI模型安全措施,确保技术负责任扩展
《Anthropic强化AI模型安全措施,确保技术负责任扩展》相关软件官网
最近,人工智能公司 Anthropic 发布了其 “负责任扩展” 政策的最新更新,明确了哪些模型需要额外的安全保护。这一举措旨在确保在推出新技术前,能够有效防范可能的风险。
据 Anthropic 在其博客中所述,如果在对某个 AI 模型进行压力测试时发现,该模型有可能帮助一个 “资源适中的国家程序” 开发化学和生物武器,Anthropic 将会在正式推出该技术之前,首先采取新的安全保护措施。此外,若模型有能力全自动化初级研究员的工作,或在技术快速扩展中带来过大的加速效应,公司也会相应地加强安全措施。
Anthropic 在本月早些时候完成了一轮新的融资,估值达到615亿美元,成为 AI 初创公司中估值最高的之一。不过,与 OpenAI 相比,这一估值仍然显得微不足道,后者近日宣布完成了400亿美元融资,总估值达到了3000亿美元。未来十年,生成性 AI 市场预计将超过1万亿美元,市场竞争愈发激烈,包括谷歌、亚马逊和微软等科技巨头都在积极推出新产品和功能。而来自中国的竞争也逐渐显现,例如 DeepSeek 的 AI 模型在美国的迅速走红便是一个例子。
在去年十月发布的 “负责任扩展” 政策中,Anthropic 还提到会进行物理办公室的安全检查,旨在发现潜在的监控设备。该公司确认,已成立了高管风险委员会,并建立了内部安全团队。此外,他们还将引入 “物理” 安全流程,利用先进的检测设备和技术进行监控设备的侦测,确保公司内部的安全。
Anthropic 在 AI 安全和责任方面的不断努力,不仅是为了保护自身的技术,更是对整个行业健康发展的重要保障。
Anthropic强化AI模型安全措施,确保技术负责任扩展
Anthropic 近年来在 AI 安全领域采取了一系列重要措施,旨在确保其 AI 模型(如 Claude 3.5 Sonnet)的安全性和可控性,同时推动技术的负责任扩展。以下是 Anthropic 在 AI 安全方面的主要举措:
1. 推出“宪法分类器”以防范 AI 越狱
Anthropic 开发了 宪法分类器(Constitutional Classifiers),通过将人类价值观和伦理规则嵌入 AI 模型,使其在生成内容时遵循安全标准。这一技术使针对 Claude 3.5 Sonnet 的成功越狱攻击减少了 81.6%。
该分类器采用类似于“宪法”的规则框架,防止 AI 生成有害或超出预期的内容,同时保持模型性能影响最小(推理开销仅增加 23.7%)。
2. 更新“责任扩展政策”(RSP),设立安全门槛
Anthropic 引入了 能力阈值,用于评估 AI 模型是否达到高风险水平(如涉及生物武器或自主 AI 研究),并设立 “责任扩展官” 监督合规性。
如果模型能力超过安全阈值,训练或部署可能会被暂停,以防止潜在滥用。
3. 漏洞奖励计划,激励安全研究
Anthropic 扩大了 漏洞奖励计划,提供高达 15,000 美元 的奖励,鼓励研究人员发现 AI 系统的安全漏洞,特别是针对 化学、生物、放射和核(CBRN)防御 相关的越狱攻击。
该计划有助于提前发现并修复潜在的安全风险,提升 AI 系统的整体安全性。
4. 用户众包测试与红队演练
Anthropic 邀请用户参与 “红队”挑战,尝试突破 AI 的安全限制,以识别潜在漏洞。例如,用户被鼓励测试与 CBRN 相关的越狱方法,如“良性释义”和“长度利用”。
尽管这一做法引发了一些伦理争议(如是否依赖无偿劳动),但 Anthropic 强调其目标是持续优化安全机制。
5. 隐私保护与透明治理
Anthropic 采用 Clio 系统 分析用户与 Claude 的交互数据,确保隐私安全,避免人工审查原始对话。
公司还推动 AI 安全等级(ASL) 标准化,类似于生物安全标准,以促进行业透明度和自我监管。
Anthropic 的这些措施不仅增强了 AI 系统的安全性,也为整个行业树立了负责任 AI 发展的标杆。未来,随着监管和技术的进步,AI 安全框架预计将进一步完善。
发表评论