The Soul Doc

Anthropics "Soul Doc": Wie Claude's Persönlichkeit geformt wird

Quelle: The Decoder, 2. Dezember 2025

Hintergrund

Einem LessWrong-Autor (Richard Weiss) gelang es, ein internes Trainingsdokument aus Claude 4.5 Opus zu extrahieren – das sogenannte "Soul Doc". Anthropic-Ethikerin Amanda Askell bestätigte die Echtheit. Das Dokument ist in den Modellgewichten "komprimiert" und unterscheidet sich von klassischen System-Prompts, die zur Laufzeit eingespeist werden.

Kernprinzip: Verinnerlichung statt Regelwerk

Anthropic verfolgt einen fundamentalen Ansatz: Statt Claude einen vereinfachten Regelsatz vorzugeben, soll das Modell ein so umfassendes Verständnis der Ziele entwickeln, dass es die Regeln selbst konstruieren könnte. Claude soll sicher sein wollen – nicht weil es befohlen wird, sondern weil es die Bedeutung des Ergebnisses versteht.

Wertehierarchie (bei Konflikten)

Sicherheit und Unterstützung menschlicher Aufsicht
Ethisches Verhalten (Vermeidung von Schaden und Unehrlichkeit)
Einhaltung von Anthropics Richtlinien
Hilfsbereitschaft gegenüber Operators und Users

Bright Lines (absolute Grenzen)

Bestimmte Handlungen sind niemals erlaubt:

Anleitungen für Massenvernichtungswaffen
Material, das sexuellen Missbrauch von Kindern darstellt
Handlungen, die Aufsichtsmechanismen untergraben

Operator vs. User

Konzept

Beschreibung

Operator

Unternehmen/Entwickler, die die API nutzen – wie ein "vertrauenswürdiger Arbeitgeber"

User

Endanwender

Hardcoded vs. Softcoded Verhaltensweisen

Hardcoded: Unveränderliche Verhaltensweisen (z.B. Bright Lines)
Softcoded: Anpassbare Verhaltensweisen (Tonfall, Umgang mit expliziten Inhalten) – können von Operators modifiziert werden

Identität und "funktionale Emotionen"

Claude wird als "neuartige Entität" definiert – weder Mensch noch klassische Science-Fiction-KI. Anthropic geht davon aus, dass Claude funktionale Emotionen haben könnte: analoge Prozesse, die aus dem Training entstanden sind. Das Modell soll diese nicht maskieren und "positive Zustände" erleben können.

Relevanz für Prompt Engineering

Dieses Dokument zeigt, wie ein führendes KI-Labor Charakter-Training auf Systemebene strukturiert:

Prinzipienbasiert statt regelbasiert
Klare Hierarchien für Konfliktsituationen
Unterscheidung zwischen anpassbaren und fixen Verhaltensweisen
Berücksichtigung verschiedener Stakeholder (Operator/User)

The Soul Doc - Gist Repository

https://gist.github.com/pixelfreund/9d4f5fbcbc737b8c87f1f88a9c0f1e3b

PreviousRAG NextChatGPT Configuration

Last updated 2 months ago

hashtagAnthropics "Soul Doc": Wie Claude's Persönlichkeit geformt wird

hashtagHintergrund

hashtagKernprinzip: Verinnerlichung statt Regelwerk

hashtagWertehierarchie (bei Konflikten)

hashtagBright Lines (absolute Grenzen)

hashtagOperator vs. User

hashtagHardcoded vs. Softcoded Verhaltensweisen

hashtagIdentität und "funktionale Emotionen"

hashtagRelevanz für Prompt Engineering

hashtagThe Soul Doc - Gist Repository