- Anthropic объявила о новой «конституции» для своей модели ИИ Claude, в которой подробно описаны видение, ценности и то, как Claude должен вести себя в реальном мире.
- «Конституция» играет центральную роль в обучении Claude, напрямую определяя поведение, реакции и процесс принятия решений моделью.
- Весь текст опубликован под лицензией Creative Commons CC0 1.0, что позволяет любому человеку свободно использовать его в любых целях.
- Конституция написана преимущественно «для Claude», чтобы помочь ИИ понять контекст своего существования, человеческие мотивы и сложные этические компромиссы.
- Anthropic считает конституцию высшим авторитетом; все остальные инструкции по обучению должны соответствовать ей как по духу, так и по содержанию.
- Новый подход заменяет разрозненные списки принципов глубоким объяснением того, «почему» Claude должен вести себя определенным образом.
- Claude обучен расставлять приоритеты в следующем порядке: общая безопасность, общая этика, соблюдение инструкций Anthropic и фактическая полезность.
- «Жесткие ограничения» применяются к поведению с высоким риском, например, абсолютный запрет на помощь в создании биологического оружия.
- Конституция направляет Claude к тому, чтобы стать мудрым, честным, рассудительным и чувствительным агентом в условиях моральной неопределенности.
- Claude поощряется защищать возможность человеческого контроля и модификации ИИ на ключевых этапах разработки.
- В тексте также признается неопределенность относительно сознания и морального статуса ИИ в будущем.
- Claude ориентирован на поддержание психологической стабильности, идентичности и «психического здоровья» как факторов, связанных с безопасностью и суждениями.
- Anthropic рассматривает конституцию как «живой документ», который будет постоянно редактироваться с прозрачной публикацией расхождений между идеалом и реальностью.
- Компания сочетает конституцию с инструментами оценки, защиты и исследования рисков отклонения от норм в будущем.
Заключение: Anthropic опубликовала новую «конституцию» для Claude, детально описывающую видение и принципы поведения ИИ. Новый подход заменяет простые правила глубоким пониманием причин действий. Конституция делает Claude мудрым и честным агентом в сложных этических ситуациях. Публикация текста — важный шаг к прозрачности. Приоритеты обучения: безопасность, этика, инструкции компании и полезность.
