Fable 5上线方案公布，Anthropic想给AI越狱定一把尺

7月1日消息，当地时间周二，Anthropic宣布恢复Claude Fable 5访问。公告里的新信息不止模型重新上线：公司第一次系统解释，什么样的AI越狱应被视为严重风险。

Anthropic在官网发布长文称，美国政府已解除对Claude Fable 5和Claude Mythos 5的出口管制。Fable 5将从7月1日起重新面向全球用户开放，覆盖Claude Platform、Claude.ai、Claude Code和Claude Cowork。Pro、Max、Team和部分Enterprise用户在7月7日前可把Fable 5用于最多50% 的每周使用额度；之后将通过用量积分继续使用。Anthropic还称，将尽快在AWS、Google Cloud和Microsoft Foundry上重新启用访问。

Mythos 5则已在美国政府6月26日批准后，先向一批美国机构恢复访问，并将继续与政府协调，扩大到Glasswing项目中的更多国内和国际合作伙伴。

如果只看结果，这像是一场模型下架风波的收尾。但Anthropic这篇文章的重点其实在后半段：它想把 “AI模型越狱到底有多严重” 变成一套行业评分标准，并把前沿模型发布纳入更深的政府预发布测试。

为什么一份越狱报告会让模型下架

这场风波始于6月12日。

Anthropic称，美国政府当天对Fable 5和Mythos 5实施出口管制，要求限制外国国民访问这两款模型。这里的外国国民不只包括美国境外用户，也包括在美国境内的非美国国民。由于指令立即生效，而Anthropic无法实时核验每个用户的国籍，公司最后选择暂停所有用户访问。

政府介入的直接导火索，是一份来自亚马逊研究人员的报告。报告称，研究人员找到一种绕过Fable 5安全防护的方法，让模型识别出若干软件漏洞；其中一个案例里，模型还生成了演示如何利用漏洞的代码。

Anthropic的反驳很明确：这不是Fable 5突然释放出独有的高级攻击能力。

公司称，自己复测后发现，Claude Opus 4.8、GPT-5.5、Kimi K2.7等较低能力模型，也能识别同样漏洞；在生成单个漏洞利用演示时，Haiku、Sonnet、Opus、GPT和Kimi的多个版本也能给出类似结果。Anthropic认为，这更像是Fable 5安全分类器里的一个边界案例，而不是Mythos级别网络攻击能力外泄。

换句话说，争议核心不是 “模型有没有风险”，而是：一个绕过技巧到底严重到什么程度，是否足以让政府要求模型停服。

新防护能拦99% 以上，但代价是误伤

为了恢复访问，Anthropic训练了新的安全分类器，专门拦截亚马逊报告中的绕过行为。公司称，新分类器能在超过99% 的情况下阻止相关技巧；如果Fable 5请求被拦截，系统会把请求转给Claude Opus 4.8处理。

美国商务部下属的AI标准与创新中心也测试了Anthropic的新旧防护。

但这不是一个 “修好就完事” 的问题。Anthropic承认，新分类器会让日常编程和调试任务中更多良性请求被误判。也就是说，用户正常做安全研究、漏洞分析或代码调试时，可能更容易碰到拒答。

这才是前沿模型安全的难点：厂商既要证明模型不会被轻易拿去做攻击，又不能把正常开发者和安全研究人员挡在门外。Fable 5的恢复，实际上是一次能力、可用性和政策风险之间的重新平衡。

Anthropic想给AI越狱分级

这篇文章最有价值的部分，是Anthropic提出的 “AI越狱严重程度框架”。

Anthropic认为，现在行业缺少统一标准。每次有人发现新的绕过方法，厂商不知道该多快修，政府也缺少一致尺度判断是否该介入。

它提出用四个维度判断一个越狱是否严重：能力增益、能力范围、武器化难度和可发现性。

这个框架的意义在于，它把 “AI越狱” 从一个容易引发恐慌的词，拆成了可以排序、可以处置的问题。一个只能触碰安全边界、还需要很多技巧才能复现的越狱，和一个一两句提示就能稳定解锁危险能力的越狱，不应该被同等对待。

Anthropic正在与亚马逊、微软、谷歌和其他Glasswing合作伙伴起草一套框架。它建议从四个维度给越狱风险打分：

第一，能力增益。越狱后，模型能不能做出现有公开工具和较弱模型做不到的事情。如果只是达到其他工具已有能力，风险较低；如果能显著加速专家级攻击，风险就高。

第二，能力范围。同一种越狱方法，是只能解锁一个很窄的任务，还是能覆盖多类攻击目标和技术路线。

第三，武器化难度。把这个越狱转成真实攻击，需要多少人工努力、提示技巧和反复尝试。如果一两次提示就能稳定成功，风险更高。

第四，可发现性。这个方法是需要专业知识才能找到，还是已经在网上广泛传播。

这套框架的意义在于，它试图把 “AI越狱” 从笼统恐慌，拆成可沟通、可排序、可修复的问题。以后模型被发现漏洞时，厂商和政府可以先判断：这是低风险边界案例，还是必须立即部署缓解措施的高危越狱。

Anthropic还计划推出新的HackerOne项目，让安全研究人员提交Fable 5潜在网络安全越狱案例。

前沿模型发布以后更难 “只按产品节奏走”

Fable 5这次恢复访问，也说明前沿模型发布正在多一层外部变量。

Anthropic表示，对涉及国家安全相关前沿能力的模型，将向指定美国政府伙伴提供更早访问权限，让政府在广泛发布前测试模型和配套防护；当出现重要越狱或滥用模式时，也会更快向政府共享信息；同时投入专门团队和算力，参与AI安全评测与研究。

这意味着，前沿模型不再只是 “训练完成、评测通过、上线销售”。越靠近网络安全、生物安全、国家安全这些高风险能力，模型发布越可能进入政府预审、信息共享和风险协商流程。

对用户来说，Fable 5恢复访问是好消息。但对企业客户来说，这件事留下的提醒更现实：最强模型的可用性，不只取决于能力、价格和接口，也取决于政策状态。一款模型即使已经上线，也可能因为安全争议突然暂停，再通过补防护、复测和政府协调恢复。

对Anthropic来说，这次复盘既是在解释下架原因，也是在争夺话语权：公司希望外界相信，Fable 5不是失控模型，而是一个被过度谨慎处理的边界案例；同时，它也希望把行业焦点从 “模型能不能被越狱” 转到 “越狱严重程度该怎么判断”。

所以，这篇公告表面上是在宣布Fable 5重新上线，实际上是在给前沿模型行业立一套新问题：AI越狱该怎么分级，政府该什么时候介入，模型公司又该怎样证明自己既能放出能力，也能管住风险。（易句）

（本文由AI翻译，网易编辑负责校对）