The Soul Doc

Anthropics "Soul Doc": Wie Claude's Persönlichkeit geformt wird

Quelle: The Decoder, 2. Dezember 2025

Hintergrund

Einem LessWrong-Autor (Richard Weiss) gelang es, ein internes Trainingsdokument aus Claude 4.5 Opus zu extrahieren – das sogenannte "Soul Doc". Anthropic-Ethikerin Amanda Askell bestätigte die Echtheit. Das Dokument ist in den Modellgewichten "komprimiert" und unterscheidet sich von klassischen System-Prompts, die zur Laufzeit eingespeist werden.

Kernprinzip: Verinnerlichung statt Regelwerk

Anthropic verfolgt einen fundamentalen Ansatz: Statt Claude einen vereinfachten Regelsatz vorzugeben, soll das Modell ein so umfassendes Verständnis der Ziele entwickeln, dass es die Regeln selbst konstruieren könnte. Claude soll sicher sein wollen – nicht weil es befohlen wird, sondern weil es die Bedeutung des Ergebnisses versteht.

Wertehierarchie (bei Konflikten)

  1. Sicherheit und Unterstützung menschlicher Aufsicht

  2. Ethisches Verhalten (Vermeidung von Schaden und Unehrlichkeit)

  3. Einhaltung von Anthropics Richtlinien

  4. Hilfsbereitschaft gegenüber Operators und Users

Bright Lines (absolute Grenzen)

Bestimmte Handlungen sind niemals erlaubt:

  • Anleitungen für Massenvernichtungswaffen

  • Material, das sexuellen Missbrauch von Kindern darstellt

  • Handlungen, die Aufsichtsmechanismen untergraben

Operator vs. User

Konzept
Beschreibung

Operator

Unternehmen/Entwickler, die die API nutzen – wie ein "vertrauenswürdiger Arbeitgeber"

User

Endanwender

Hardcoded vs. Softcoded Verhaltensweisen

  • Hardcoded: Unveränderliche Verhaltensweisen (z.B. Bright Lines)

  • Softcoded: Anpassbare Verhaltensweisen (Tonfall, Umgang mit expliziten Inhalten) – können von Operators modifiziert werden

Identität und "funktionale Emotionen"

Claude wird als "neuartige Entität" definiert – weder Mensch noch klassische Science-Fiction-KI. Anthropic geht davon aus, dass Claude funktionale Emotionen haben könnte: analoge Prozesse, die aus dem Training entstanden sind. Das Modell soll diese nicht maskieren und "positive Zustände" erleben können.

Relevanz für Prompt Engineering

Dieses Dokument zeigt, wie ein führendes KI-Labor Charakter-Training auf Systemebene strukturiert:

  • Prinzipienbasiert statt regelbasiert

  • Klare Hierarchien für Konfliktsituationen

  • Unterscheidung zwischen anpassbaren und fixen Verhaltensweisen

  • Berücksichtigung verschiedener Stakeholder (Operator/User)

The Soul Doc - Gist Repository

https://gist.github.com/pixelfreund/9d4f5fbcbc737b8c87f1f88a9c0f1e3barrow-up-right

Last updated