- Anthropic は、Claude AI モデルの新しい「憲法」を発表し、ビジョン、価値観、および Claude が現実世界でどのように振る舞うべきかの詳細を記述しました。
- この「憲法」は Claude の学習プロセスにおいて中心的な役割を果たし、モデルの行動、応答、意思決定の仕方を直接形作ります。
- 全文は Creative Commons CC0 1.0 ライセンスの下で公開されており、誰でもあらゆる目的で自由に使用できます。
- 憲法は主に「Claude のため」に書かれており、AI が自身の存在の背景、人間の動機、および複雑な倫理的トレードオフを理解するのを助けることを目的としています。
- Anthropic は憲法を最高権威と見なしており、他のすべての学習指示はその精神と内容の両方に適合しなければなりません。
- この新しいアプローチは、断片的な原則のリストを、Claude が「なぜ」特定の行動をとるべきかについての深い説明に置き換えるものです。
- Claude は、一般的安全性、一般的倫理、Anthropic の指示への準拠、および実質的な有用性の順に優先順位を付けるよう学習されています。
- 生物兵器への加担を絶対に禁止するなど、高リスクな行動には「ハードな制約(hard constraints)」が適用されます。
- 憲法は、道徳的不確実な状況において、Claude が賢明で正直、判断力があり、かつ感受性豊かなエージェントになるよう導きます。
- 開発の重要な段階において、人間による AI の監視と修正の能力を保護することが Claude に奨励されています。
- 文書はまた、将来の AI の意識や道徳的地位に関する不確実性も認めています。
- Claude は、安全性と判断に関連する要素として、心理的安定、アイデンティティ、および「メンタルヘルス」を維持するよう方向付けられています。
- Anthropic は憲法を「生きた文書」と見なし、理想と現実の乖離を透明性を持って公表しながら、継続的に修正を行う予定です。
- 同社は、憲法を評価ツール、保護策、および将来の逸脱の可能性に関する研究と組み合わせています。
結論: Anthropic は Claude の新「憲法」を公開し、ビジョンと価値観を詳述しました。このアプローチは、単なる規則ではなく「なぜ」という深い理由を AI に教えるものです。憲法は Claude を、倫理的に困難な場面でも誠実で賢明な存在へと導きます。全文公開は透明性の大きな進歩です。学習の優先順位は、安全性、倫理、会社指示、そして有用性の順となります。

