- Anthropic a annoncé une nouvelle « constitution » pour son modèle d’IA Claude, décrivant en détail la vision, les valeurs et la manière dont Claude doit se comporter dans le monde réel.
- Cette « constitution » joue un rôle central dans l’entraînement de Claude, façonnant directement le comportement, les réponses et la prise de décision du modèle.
- L’intégralité du texte est publiée sous licence Creative Commons CC0 1.0, permettant à quiconque de l’utiliser librement à toutes fins.
- La constitution est principalement écrite « pour Claude », afin d’aider l’IA à comprendre son contexte d’existence, les motivations humaines et les compromis éthiques complexes.
- Anthropic considère la constitution comme l’autorité suprême ; toutes les autres instructions d’entraînement doivent être conformes à son esprit et à son contenu.
- Cette nouvelle approche remplace les listes fragmentées de principes par des explications approfondies sur le « pourquoi » Claude doit agir d’une certaine manière.
- Claude est entraîné pour prioriser dans l’ordre : la sécurité générale, l’éthique générale, le respect des instructions d’Anthropic et l’utilité substantielle.
- Des « contraintes strictes » sont appliquées aux comportements à haut risque, comme l’interdiction absolue d’aider à la conception d’armes biologiques.
- La constitution guide Claude pour devenir un agent sage, honnête, doté de jugement et sensible dans des contextes d’incertitude morale.
- Claude est encouragé à protéger la capacité humaine à superviser et modifier l’IA pendant les étapes cruciales du développement.
- Le texte reconnaît également l’incertitude concernant la conscience future et le statut moral de l’IA.
- Claude est orienté vers le maintien d’une stabilité psychologique, d’une identité et d’une « santé mentale » comme facteurs liés à la sécurité et au jugement.
- Anthropic considère la constitution comme un document vivant, qui sera continuellement révisé avec une publication transparente des écarts entre l’idéal et la réalité.
- L’entreprise combine la constitution avec des outils d’évaluation, des protections et des recherches sur les risques de déviance future.
Conclusion : Anthropic a annoncé une nouvelle « constitution » pour son modèle Claude, détaillant sa vision et ses valeurs. Cette approche remplace les règles éparses par des explications profondes sur le « pourquoi ». La constitution guide Claude pour être un agent sage et honnête face aux incertitudes morales. Sa publication est une avancée majeure pour la transparence. Les priorités d’entraînement sont : sécurité, éthique, instructions et utilité.
