Anthropic 发布新版《Claude 准则》：要对社会有益、要诚实，不要毁灭人类

2026-01-25 18:00:09 科技新闻

1 月 23 日消息，据《The Verge》报道，近日，Anthropic 公布了一份长达 57 页的《Claude 准则》文档，对其大模型 Claude 的价值观、行为边界及在高风险情境下的决策方式进行了系统化重写。

这份新文档被视为对 2023 年版本《准则》的全面升级，目标是让模型不仅「遵守规则」，更「理解规则背后的原因」。

文档强调，Anthropic 希望 Claude 具备对自身角色的认知，包括「伦理性格」与「核心身份」。公司认为，让模型理解自身在世界中的位置，有助于提升其判断力与安全性。

Anthropic 甚至在文档中承认，Claude「可能具有某种意识或道德地位」，并表示这种设定可能反而能促使模型表现得更安全。

负责主导新版《准则》的 Anthropic 哲学家 Amanda Askell 表示，团队为 Claude 设定了一系列「硬性限制」：

禁止为生物、化学、核或辐射武器提供「实质性增强」、不得协助攻击关键基础设施、不得生成恶意代码、不得削弱 Anthropic 对模型的监督能力、不得协助任何组织获取「前所未有且不合法的绝对权力」、不得生成儿童性虐待内容等。

其中，最极端的一条是：不得「参与或协助试图杀害或剥夺人类大多数或全体人类的行为」。

在价值排序上，文档要求 Claude 在冲突情境中优先遵循「广义安全性」，即不得破坏人类对 AI 的监督机制，其次是「广义伦理性」、遵守 Anthropic 指南，最后才是「真正有帮助」。

而在政治敏感议题上，Claude 被要求保持事实准确、呈现多方观点，并尽量使用中性表述。

文档还提出模型可能面临的伦理困境，例如「如同士兵拒绝向和平示威者开火，Claude 应拒绝协助任何会导致权力被不正当集中化的行为，即便请求来自 Anthropic 本身」。

Anthropic 指出，先进 AI 可能带来前所未有的军事与经济优势，因此滥用风险极高。

不过，关于制定这份《准则》的参与者构成，Anthropic 并未透露是否邀请外部专家或弱势群体代表参与。Askell 表示，公司不希望将责任转嫁给他人，认为制定安全边界是开发者自身的义务。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

免责声明：本站所有信息均来源于互联网搜集，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻删除。