7月1日消息,当地时间周二,Anthropic宣布恢复Claude Fable 5访问。公告里的新信息不止模型重新上线:公司第一次系统解释,什么样的AI越狱应被视为严重风险。

Anthropic在官网发布长文称,美国政府已解除对Claude Fable 5和Claude Mythos 5的出口管制。Fable 5将从7月1日起重新面向全球用户开放,覆盖Claude Platform、Claude.ai、Claude Code和Claude Cowork。Pro、Max、Team和部分Enterprise用户在7月7日前可把Fable 5用于最多50% 的每周使用额度;之后将通过用量积分继续使用。Anthropic还称,将尽快在AWS、Google Cloud和Microsoft Foundry上重新启用访问。

Mythos 5则已在美国政府6月26日批准后,先向一批美国机构恢复访问,并将继续与政府协调,扩大到Glasswing项目中的更多国内和国际合作伙伴。

如果只看结果,这像是一场模型下架风波的收尾。但Anthropic这篇文章的重点其实在后半段:它想把 “AI模型越狱到底有多严重” 变成一套行业评分标准,并把前沿模型发布纳入更深的政府预发布测试。

为什么一份越狱报告会让模型下架

这场风波始于6月12日。

Anthropic称,美国政府当天对Fable 5和Mythos 5实施出口管制,要求限制外国国民访问这两款模型。这里的外国国民不只包括美国境外用户,也包括在美国境内的非美国国民。由于指令立即生效,而Anthropic无法实时核验每个用户的国籍,公司最后选择暂停所有用户访问。

政府介入的直接导火索,是一份来自亚马逊研究人员的报告。报告称,研究人员找到一种绕过Fable 5安全防护的方法,让模型识别出若干软件漏洞;其中一个案例里,模型还生成了演示如何利用漏洞的代码。

Anthropic的反驳很明确:这不是Fable 5突然释放出独有的高级攻击能力。

公司称,自己复测后发现,Claude Opus 4.8、GPT-5.5、Kimi K2.7等较低能力模型,也能识别同样漏洞;在生成单个漏洞利用演示时,Haiku、Sonnet、Opus、GPT和Kimi的多个版本也能给出类似结果。Anthropic认为,这更像是Fable 5安全分类器里的一个边界案例,而不是Mythos级别网络攻击能力外泄。

换句话说,争议核心不是 “模型有没有风险”,而是:一个绕过技巧到底严重到什么程度,是否足以让政府要求模型停服。

新防护能拦99% 以上,但代价是误伤

为了恢复访问,Anthropic训练了新的安全分类器,专门拦截亚马逊报告中的绕过行为。公司称,新分类器能在超过99% 的情况下阻止相关技巧;如果Fable 5请求被拦截,系统会把请求转给Claude Opus 4.8处理。

美国商务部下属的AI标准与创新中心也测试了Anthropic的新旧防护。

但这不是一个 “修好就完事” 的问题。Anthropic承认,新分类器会让日常编程和调试任务中更多良性请求被误判。也就是说,用户正常做安全研究、漏洞分析或代码调试时,可能更容易碰到拒答。

这才是前沿模型安全的难点:厂商既要证明模型不会被轻易拿去做攻击,又不能把正常开发者和安全研究人员挡在门外。Fable 5的恢复,实际上是一次能力、可用性和政策风险之间的重新平衡。

Anthropic想给AI越狱分级

这篇文章最有价值的部分,是Anthropic提出的 “AI越狱严重程度框架”。

Anthropic认为,现在行业缺少统一标准。每次有人发现新的绕过方法,厂商不知道该多快修,政府也缺少一致尺度判断是否该介入。

它提出用四个维度判断一个越狱是否严重:能力增益、能力范围、武器化难度和可发现性。

这个框架的意义在于,它把 “AI越狱” 从一个容易引发恐慌的词,拆成了可以排序、可以处置的问题。一个只能触碰安全边界、还需要很多技巧才能复现的越狱,和一个一两句提示就能稳定解锁危险能力的越狱,不应该被同等对待。

Anthropic正在与亚马逊、微软、谷歌和其他Glasswing合作伙伴起草一套框架。它建议从四个维度给越狱风险打分:

第一,能力增益。越狱后,模型能不能做出现有公开工具和较弱模型做不到的事情。如果只是达到其他工具已有能力,风险较低;如果能显著加速专家级攻击,风险就高。

第二,能力范围。同一种越狱方法,是只能解锁一个很窄的任务,还是能覆盖多类攻击目标和技术路线。

第三,武器化难度。把这个越狱转成真实攻击,需要多少人工努力、提示技巧和反复尝试。如果一两次提示就能稳定成功,风险更高。

第四,可发现性。这个方法是需要专业知识才能找到,还是已经在网上广泛传播。

这套框架的意义在于,它试图把 “AI越狱” 从笼统恐慌,拆成可沟通、可排序、可修复的问题。以后模型被发现漏洞时,厂商和政府可以先判断:这是低风险边界案例,还是必须立即部署缓解措施的高危越狱。

Anthropic还计划推出新的HackerOne项目,让安全研究人员提交Fable 5潜在网络安全越狱案例。

前沿模型发布以后更难 “只按产品节奏走”

Fable 5这次恢复访问,也说明前沿模型发布正在多一层外部变量。

Anthropic表示,对涉及国家安全相关前沿能力的模型,将向指定美国政府伙伴提供更早访问权限,让政府在广泛发布前测试模型和配套防护;当出现重要越狱或滥用模式时,也会更快向政府共享信息;同时投入专门团队和算力,参与AI安全评测与研究。

这意味着,前沿模型不再只是 “训练完成、评测通过、上线销售”。越靠近网络安全、生物安全、国家安全这些高风险能力,模型发布越可能进入政府预审、信息共享和风险协商流程。

对用户来说,Fable 5恢复访问是好消息。但对企业客户来说,这件事留下的提醒更现实:最强模型的可用性,不只取决于能力、价格和接口,也取决于政策状态。一款模型即使已经上线,也可能因为安全争议突然暂停,再通过补防护、复测和政府协调恢复。

对Anthropic来说,这次复盘既是在解释下架原因,也是在争夺话语权:公司希望外界相信,Fable 5不是失控模型,而是一个被过度谨慎处理的边界案例;同时,它也希望把行业焦点从 “模型能不能被越狱” 转到 “越狱严重程度该怎么判断”。

所以,这篇公告表面上是在宣布Fable 5重新上线,实际上是在给前沿模型行业立一套新问题:AI越狱该怎么分级,政府该什么时候介入,模型公司又该怎样证明自己既能放出能力,也能管住风险。(易句)

(本文由AI翻译,网易编辑负责校对)