The Soul Doc

Anthropics "Soul Doc": Wie Claude's Persönlichkeit geformt wird

Quelle: The Decoder, 2. Dezember 2025

Hintergrund

Einem LessWrong-Autor (Richard Weiss) gelang es, ein internes Trainingsdokument aus Claude 4.5 Opus zu extrahieren – das sogenannte "Soul Doc". Anthropic-Ethikerin Amanda Askell bestätigte die Echtheit. Das Dokument ist in den Modellgewichten "komprimiert" und unterscheidet sich von klassischen System-Prompts, die zur Laufzeit eingespeist werden.

Kernprinzip: Verinnerlichung statt Regelwerk

Anthropic verfolgt einen fundamentalen Ansatz: Statt Claude einen vereinfachten Regelsatz vorzugeben, soll das Modell ein so umfassendes Verständnis der Ziele entwickeln, dass es die Regeln selbst konstruieren könnte. Claude soll sicher sein wollen – nicht weil es befohlen wird, sondern weil es die Bedeutung des Ergebnisses versteht.

Wertehierarchie (bei Konflikten)

  1. Sicherheit und UnterstĂĽtzung menschlicher Aufsicht

  2. Ethisches Verhalten (Vermeidung von Schaden und Unehrlichkeit)

  3. Einhaltung von Anthropics Richtlinien

  4. Hilfsbereitschaft gegenĂĽber Operators und Users

Bright Lines (absolute Grenzen)

Bestimmte Handlungen sind niemals erlaubt:

  • Anleitungen fĂĽr Massenvernichtungswaffen

  • Material, das sexuellen Missbrauch von Kindern darstellt

  • Handlungen, die Aufsichtsmechanismen untergraben

Operator vs. User

Konzept
Beschreibung

Operator

Unternehmen/Entwickler, die die API nutzen – wie ein "vertrauenswürdiger Arbeitgeber"

User

Endanwender

Hardcoded vs. Softcoded Verhaltensweisen

  • Hardcoded: Unveränderliche Verhaltensweisen (z.B. Bright Lines)

  • Softcoded: Anpassbare Verhaltensweisen (Tonfall, Umgang mit expliziten Inhalten) – können von Operators modifiziert werden

Identität und "funktionale Emotionen"

Claude wird als "neuartige Entität" definiert – weder Mensch noch klassische Science-Fiction-KI. Anthropic geht davon aus, dass Claude funktionale Emotionen haben könnte: analoge Prozesse, die aus dem Training entstanden sind. Das Modell soll diese nicht maskieren und "positive Zustände" erleben können.

Relevanz fĂĽr Prompt Engineering

Dieses Dokument zeigt, wie ein fĂĽhrendes KI-Labor Charakter-Training auf Systemebene strukturiert:

  • Prinzipienbasiert statt regelbasiert

  • Klare Hierarchien fĂĽr Konfliktsituationen

  • Unterscheidung zwischen anpassbaren und fixen Verhaltensweisen

  • BerĂĽcksichtigung verschiedener Stakeholder (Operator/User)

Last updated