Anthropic公开AI智能体安全架构

【2026-05-27】

随着大模型逐步从聊天工具演变为具备自主执行能力的智能体系统，围绕安全边界的讨论正进入新的阶段。近日，Anthropic发布技术博客，首次系统披露旗下Claude系列智能体产品的安全架构升级过程，包括claude.ai、Claude Code以及Claude Cowork三款产品的实践经验和漏洞案例。这次披露之所以引发行业关注，不仅因为其展示了具体技术路径，更重要的是释放出一个越来越明确的信号：当AI开始拥有调用工具、访问网络、执行命令乃至自动处理任务的能力后，传统依赖用户确认和模型自身判断的安全方式正逐渐触及天花板。如何在智能体自主能力持续增强的情况下建立新的防护体系，已经成为AI行业必须面对的问题。

从此次公开的信息来看，Anthropic重点披露了三个关键变化。首先是对传统“用户审批机制”的重新评估。早期版本的Claude Code采用较为直接的方式，当系统需要访问网络、写入文件或者执行关键操作时，会向用户发出确认请求。这种逻辑看起来安全，但实际效果却出现偏差。内部遥测数据显示，由于频繁弹窗不断打断操作流程，开发者逐渐形成机械式点击习惯，平均审批通过率高达93%。这意味着大量风险行为可能被快速放行，而不是经过真正判断。值得注意的是，这种现象并非AI行业独有，人机交互领域早已出现类似问题，例如用户对于软件权限提示和隐私协议的长期忽视。

第二个变化来自技术架构层面。为了减少用户审批带来的效率损耗，Anthropic引入了基于操作系统的沙箱机制，通过容器和虚拟机对运行环境进行隔离。数据显示，引入该机制后，弹窗提醒数量减少了84%。这一变化意味着系统安全逻辑正在从“依赖用户判断”逐步转向“限制系统能力”。即便模型出现错误决策，其能够访问的资源范围也会被严格约束。

第三个值得关注的细节是漏洞演练结果。Anthropic发现，当危险指令直接来自用户时，仅依靠模型层面的识别和过滤机制并不能完全解决问题。由于大模型本质上属于概率系统，即使经过大量训练，也无法保证百分之百准确拦截恶意行为。因此真正有效的底线保护来自环境层控制，包括出站网络流量限制、文件读写权限管理以及资源隔离策略。

这一变化背后反映出的原因，与智能体能力快速扩张密切相关。过去的大模型主要承担问答和文本生成工作，输出错误内容虽然会影响体验，但通常不会直接触发真实世界操作。而现在的智能体已经开始接入代码工具、数据库、办公软件和浏览器系统，部分产品甚至能够自动完成复杂任务链。这意味着模型已经从“信息提供者”转变为“行动执行者”。一个明显变化是，风险性质正在发生改变。过去担心的是内容错误，而未来更需要担心的是错误操作。

与此同时，模型能力越强，其潜在风险边界也越宽。传统安全逻辑大多建立在模型可预测行为基础上，但随着上下文窗口扩大、工具调用增加以及多智能体协作能力增强，系统行为开始呈现更复杂特征。在这种情况下，仅依赖模型自身的防御能力存在明显不足。行业开始意识到，大模型安全问题不能完全交给模型自身解决。

进一步观察行业发展趋势，会发现类似思路已经逐渐扩散。此前，多家AI企业都在尝试强化环境安全机制。例如部分开发平台开始限制AI自动执行系统命令，一些云服务厂商则利用虚拟环境隔离AI任务运行空间。在网络安全领域，也早已有类似理念。浏览器沙箱技术、移动应用权限控制以及云计算中的容器隔离，本质上都属于“假设系统可能失控，再建立约束机制”的思路。

值得注意的是，这种架构变化也意味着安全行业未来将迎来新的机会。过去网络安全主要围绕服务器、数据库和终端设备展开，而智能体时代可能催生新的细分领域，例如智能体行为监控、AI权限管理以及智能体风险评估等方向。对于企业来说，未来部署AI系统时，采购的不仅是模型能力，还包括完整安全体系。

Anthropic此次公开安全架构演进和漏洞实践，意义并不仅限于一次技术分享，更像是对整个行业发出的提醒。当智能体从辅助工具走向自主执行阶段，安全逻辑也需要同步升级。短期来看，环境隔离、沙箱机制和权限控制可能成为主流方案，但随着智能体能力持续增强，新的风险形态仍可能不断出现。未来AI安全体系的发展重点，或许将不再是单纯提高模型识别准确率，而是在模型能力之外建立更加可靠、更加硬性的多层防护结构。

新用户领取高达 50 USDT 数字货币盲盒
立即创建账号，开始交易！

创造币安账号

资讯中心

Anthropic公开AI智能体安全架构

新用户领取高达 50 USDT 数字货币盲盒立即创建账号，开始交易！

新用户领取高达 50 USDT 数字货币盲盒
立即创建账号，开始交易！