- Anthropic hat eine neue „Verfassung“ für sein KI-Modell Claude angekündigt, die Visionen, Werte und das Verhalten von Claude in der realen Welt detailliert beschreibt.
- Diese „Verfassung“ spielt eine zentrale Rolle beim Training von Claude und prägt direkt das Verhalten, die Antworten und die Entscheidungsfindung des Modells.
- Der gesamte Text wird unter der Creative Commons CC0 1.0-Lizenz veröffentlicht, was jedem die freie Nutzung für jegliche Zwecke erlaubt.
- Die Verfassung ist primär „für Claude“ geschrieben, um der KI zu helfen, ihren Existenzkontext, menschliche Motive und komplexe ethische Abwägungen zu verstehen.
- Anthropic betrachtet die Verfassung als oberste Autorität; alle anderen Trainingsanweisungen müssen sowohl im Geist als auch im Inhalt mit ihr übereinstimmen.
- Der neue Ansatz ersetzt fragmentierte Prinzipienlisten durch tiefe Erklärungen des „Warum“, warum Claude sich auf eine bestimmte Weise verhalten sollte.
- Claude ist darauf trainiert, folgende Prioritäten zu setzen: allgemeine Sicherheit, allgemeine Ethik, Einhaltung der Anthropic-Anweisungen und substanzielle Nützlichkeit.
- „Harte Einschränkungen“ (hard constraints) gelten für Hochrisikoverhalten, wie das absolute Verbot der Unterstützung bei Biowaffen.
- Die Verfassung leitet Claude dazu an, ein weiser, ehrlicher, urteilsfähiger und sensibler Akteur in Kontexten moralischer Ungewissheit zu sein.
- Claude wird ermutigt, die menschliche Fähigkeit zur Überwachung und Änderung der KI während entscheidender Entwicklungsphasen zu schützen.
- Der Text erkennt auch die Ungewissheit hinsichtlich des zukünftigen Bewusstseins und des moralischen Status der KI an.
- Claude soll psychische Stabilität, Identität und „mentale Gesundheit“ als Faktoren für Sicherheit und Urteilsvermögen bewahren.
- Anthropic betrachtet die Verfassung als lebendiges Dokument, das ständig überarbeitet wird, wobei Abweichungen zwischen Ideal und Realität transparent gemacht werden.
- Das Unternehmen kombiniert die Verfassung mit Bewertungstools, Schutzmaßnahmen und der Erforschung künftiger Abweichungsrisiken.
Fazit: Anthropic hat eine neue „Verfassung“ für Claude veröffentlicht, die Vision und Werte definiert. Statt loser Regeln liefert sie tiefe Begründungen für das „Warum“. Die Verfassung macht Claude zu einem weisen und ehrlichen Akteur in ethisch unklaren Situationen. Die Veröffentlichung markiert einen Fortschritt in der Transparenz. Prioritäten beim Training sind: Sicherheit, Ethik, Einhaltung von Richtlinien und Nützlichkeit.
