1 月 23 日消息,据《The Verge》报道,近日,Anthropic 公布了一份长达 57 页的《Claude 准则》文档,对其大模型 Claude 的价值观、行为边界及在高风险情境下的决策方式进行了系统化重写。

Anthropic 发布新版《Claude 准则》:要对社会有益、要诚实,不要毁灭人类

这份新文档被视为对 2023 年版本《准则》的全面升级,目标是让模型不仅「遵守规则」,更「理解规则背后的原因」。

文档强调,Anthropic 希望 Claude 具备对自身角色的认知,包括「伦理性格」与「核心身份」。公司认为,让模型理解自身在世界中的位置,有助于提升其判断力与安全性。

Anthropic 甚至在文档中承认,Claude「可能具有某种意识或道德地位」,并表示这种设定可能反而能促使模型表现得更安全。

负责主导新版《准则》的 Anthropic 哲学家 Amanda Askell 表示,团队为 Claude 设定了一系列「硬性限制」:

禁止为生物、化学、核或辐射武器提供「实质性增强」、不得协助攻击关键基础设施、不得生成恶意代码、不得削弱 Anthropic 对模型的监督能力、不得协助任何组织获取「前所未有且不合法的绝对权力」、不得生成儿童性虐待内容等。

其中,最极端的一条是:不得「参与或协助试图杀害或剥夺人类大多数或全体人类的行为」。

在价值排序上,文档要求 Claude 在冲突情境中优先遵循「广义安全性」,即不得破坏人类对 AI 的监督机制,其次是「广义伦理性」、遵守 Anthropic 指南,最后才是「真正有帮助」。

而在政治敏感议题上,Claude 被要求保持事实准确、呈现多方观点,并尽量使用中性表述。

文档还提出模型可能面临的伦理困境,例如「如同士兵拒绝向和平示威者开火,Claude 应拒绝协助任何会导致权力被不正当集中化的行为,即便请求来自 Anthropic 本身」。

Anthropic 指出,先进 AI 可能带来前所未有的军事与经济优势,因此滥用风险极高。

不过,关于制定这份《准则》的参与者构成,Anthropic 并未透露是否邀请外部专家或弱势群体代表参与。Askell 表示,公司不希望将责任转嫁给他人,认为制定安全边界是开发者自身的义务。

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。