Anthropic 安全政策改动与五角大楼对峙
时间线共有 10 个进展23 条新闻
Anthropic 于2023年发布"负责任扩展政策"(RSP),承诺若AI模型能力超出安全保障范围则暂停训练,被视为行业标杆。2025年,公司与五角大楼签署2亿美元合同,Claude成为首个部署在美军机密网络的AI模型,但双方在使用限制上产生分歧。2026年初,国防部长Hegseth要求所有AI公司取消军事使用限制,Anthropic以自主武器和大规模国内监控为红线拒绝让步,Hegseth随即发出最后通牒,威胁终止合同、动用《国防生产法》。同一周,Anthropic发布RSP第三版,移除暂停训练的核心承诺,改为非约束性框架。
贡献者:
avatar
2026 年二月
10
最新进展·2 月 26 日

五角大楼向国防承包商评估Anthropic供应链风险

2026年2月25-26日,五角大楼向波音和洛克希德·马丁等主要国防承包商发出询问,要求评估对Anthropic Claude的依赖程度,这是将Anthropic列为"供应链风险"的初步步骤。波音国防分支回应称与Anthropic无现有合同。与此同时,Lawfare等法律分析平台指出,动用《国防生产法》强制AI公司交出技术在法律上存在重大不确定性,具体取决于政府要求的内容——是取消合同限制还是要求重新训练模型以移除安全限制。

9
2 月 25 日

RSP第三版发布,移除暂停训练的核心承诺

2026年2月25日,Anthropic发布RSP第三版,移除了此前"在安全措施不足时暂停训练"的核心承诺。新政策改为:仅在公司认为自己显著领先竞争对手且判断灾难性风险确实存在时,才会考虑"延迟"开发。新框架以"前沿安全路线图"和"风险报告"取代硬性约束,定位为"非约束性公开目标"。Anthropic表示,若一家负责任的开发者单方面暂停而竞争对手继续推进,"可能导致世界更不安全"。独立评估机构METR的Chris Painter警告称这表明"社会尚未准备好应对AI带来的潜在灾难性风险"。

8
2 月 24 日

Hegseth向Anthropic发出周五最后通牒

2026年2月24日,国防部长Hegseth与Anthropic CEO Dario Amodei会面,发出最后通牒:要求Anthropic在周五(2月28日)17:01前取消对军方的AI使用限制,否则将面临终止2亿美元合同、被列为"供应链风险"(通常仅用于外国敌对企业如华为),以及被动用《国防生产法》强制征用技术等后果。Anthropic坚持其两条红线不可妥协:不允许Claude用于自主武器系统和大规模国内监控。xAI的Grok已同意以"任何合法用途"标准进入机密系统。

7
2 月 9 日

安全研究负责人辞职称"世界正处于危险之中"

2026年2月9日,Anthropic安全防护研究团队负责人Mrinank Sharma公开辞职,在给同事的信中称"世界正处于危险之中",表示自己"反复目睹让价值观真正主导行动是多么困难",员工"不断面临搁置最重要事物的压力"。Sharma于2023年加入公司,此前曾在牛津大学获得机器学习博士学位。他的离职被视为Anthropic内部安全理念与商业压力紧张关系的信号。

2026 年一月
6
1 月 20 日

马杜罗突袭中使用Claude引发摩擦

2026年1月,美军在突袭委内瑞拉、逮捕前总统马杜罗的行动中通过Palantir平台使用了Claude。一名Anthropic员工随后向Palantir询问Claude是否被用于此次行动,Palantir将此事上报五角大楼。Hegseth对此反应愤怒。Anthropic方面否认曾就具体军事行动与五角大楼或Palantir进行过讨论。此事件成为双方矛盾升级的导火索。

5
1 月 9 日

Hegseth发布"AI优先作战"备忘录

2026年1月9日,美国国防部长Pete Hegseth向五角大楼高级官员发出备忘录,宣布推动建设"AI优先作战力量",要求AI模型用于所有合法军事用途,"不受个别AI公司使用政策的约束"。备忘录指示在180天内将所有国防部AI合同统一纳入"任何合法用途"条款,与Anthropic合同中的限制条款形成直接冲突。

2025 年七月
4
2025 年 7 月 15 日

Anthropic 签署2亿美元五角大楼合同

2025年7月,五角大楼分别与Anthropic、OpenAI、Google DeepMind和xAI签订两年期合同,每份价值最高2亿美元,用于"原型化前沿AI能力以推进美国国家安全"。Anthropic的Claude成为首个获准部署在军方机密网络上的商用AI模型,通过与Palantir的合作关系运行。合同中包含Anthropic要求的使用政策限制条款。

2025 年五月
3
2025 年 5 月 1 日

Anthropic 激活 ASL-3 安全防护

2025年5月,Anthropic 宣布无法排除其模型在生物恐怖主义方面的风险,因此激活ASL-3级安全防护措施。这是RSP实施以来首次升级安全等级。公司部署了针对CBRN(化学、生物、放射、核)威胁的专门分类器和防御系统。但公司同时指出,虽然无法排除风险存在,也缺乏强有力的科学证据证明模型确实构成此类威胁,凸显出"灰色地带"问题。

2024 年十月
2
2024 年 10 月 15 日

RSP第二版更新,保留核心暂停承诺

2024年10月,Anthropic 发布RSP第二版,引入更灵活的风险评估框架,但保留核心承诺——不在安全措施不到位时训练或部署模型。更新包括:细化能力门槛定义、采用安全论证方法论、延长评估周期至6个月。公司还披露了此前在执行中的若干合规偏差,并任命首席科学官Jared Kaplan为负责任扩展官。

2023 年九月
1
2023 年 9 月 19 日

Anthropic 发布首版负责任扩展政策

2023年9月,Anthropic 发布业内首份"负责任扩展政策"(RSP),核心承诺为:若AI模型能力超出公司安全保障能力,将暂停训练和部署。政策引入"AI安全等级"(ASL)体系,按模型能力分级设置安全标准。Anthropic 希望此举能推动行业形成"竞优"共识。此后数月内,OpenAI和Google DeepMind也采纳了类似框架。