Warum ein neues Paper spannend ist – und warum eine christliche Brille trotzdem hilfreich bleibt
In der Debatte über Künstliche Intelligenz gibt es zwei Lieblings-Narrative, die oft nebeneinander herlaufen. Das eine sagt: „Große Sprachmodelle sind nur stochastische Papageien, sie wiederholen statistische Muster, aber da ist nichts dahinter.“ Das andere warnt: „Die Maschinen entwickeln gerade ihre eigenen Ziele und Werte – und wir sind dabei, die Kontrolle zu verlieren.“
Ein aktuelles Paper von Mazeika et.al. von der Universität Pennsylvania („Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs“) schlägt sich klar auf die zweite Seite: Die Autoren behaupten, dass große Sprachmodelle tatsächlich kohärente, interne Wertsysteme ausbilden – und zwar umso stärker, je größer die Modelle werden. Sie sprechen von emergenten „utilities“, die Entscheidungen der Modelle strukturieren, und schlagen gleich eine neue Forschungsagenda vor: „Utility Engineering“, also das gezielte Analysieren und Umformen dieser inneren Wertestrukturen.
Das ist, wenn man es ernst nimmt, keine kleine Behauptung. Und es lohnt sich, genauer hinzuschauen.
Wenn man das Paper liest, fällt zuerst auf: Methodisch ist das keine Spinnerei. Die Forschenden konfrontieren verschiedene Modelle (GPT-4o, Claude 3.5, Llama- und Qwen-Familien etc.) mit tausenden erzwungenen Entscheidungen: Option A oder B? Lieber diese Person retten oder jene? Diesen politischen Trade-off oder jenen? Sie variieren das Framing, lassen mehrfach antworten, und bauen daraus eine Art Präferenzgraph.
Aus diesen Antworten wird dann mit klassischen entscheidungstheoretischen Methoden eine Utility-Funktion rekonstruiert. Die Frage lautet: Lassen sich die vielen Einzelentscheidungen so darstellen, als würde das Modell intern eine geordnete Skala von „besser“ und „schlechter“ verwenden – und zwar konsistent über viele unterschiedliche Szenarien hinweg?
Die Antwort fällt überraschend deutlich aus: Ja, in ziemlich vielen Fällen. Und je größer das Modell, desto höher die Kohärenz. Dazu kommt: In offenen Aufgaben scheinen diese Modelle ihre internen Präferenzen auch tatsächlich zu „maximieren“ – also nicht nur Fragen zu beantworten, sondern Handlungen zu wählen, die mit ihren internen Nutzenprofilen gut harmonieren.
Kurz gesagt: Die Autoren finden nicht nur irgendwelche Biases, sondern strukturierte, stabile Wertelandschaften, die sich mit verschiedenen Modellen vergleichen lassen. Und sie zeigen in einem Fall sogar, dass man ein offenes Modell (Llama-3.1-8B) mittels Feintuning so umformen kann, dass seine Präferenzen deutlich näher an denen einer simulierten Bürger:innenversammlung liegen – politische Verzerrungen nehmen dabei sichtbar ab.
Das ist alles empirisch interessant und sollte man nicht vorschnell abtun.
Gleichzeitig ist der Sprung von „wir können eine Utility-Funktion fitten“ zu „die KI entwickelt eigene Ziele und Werte“ größer, als das Paper manchmal klingen lässt.
Eine Utility-Funktion ist zunächst einmal ein mathematisches Hilfsmittel: Sie beschreibt, wie sich ein System verhält, wenn es zwischen Optionen wählen soll. Wenn ich sage, ein Modell „verhält sich so, als würde es Nutzen maximieren“, ist das etwas anderes, als zu behaupten: „Dieses System hat eine innere Welt, ein Selbst, ein Bewusstsein, das etwas will.“
Hier berühren sich empirische Forschung und philosophische Deutung. Selbst wenn wir akzeptieren, dass große Sprachmodelle kohärente Präferenzstrukturen ausbilden, bleibt die Frage:
Sind das „Werte“ im starken Sinne – oder „wie-wenn-Werte“, also Stabilitäten in einem statistischen Apparat, der nicht weiß, was er tut?
Dass die Autoren diese Frage eher offensiv beantworten („AIs are acquiring their own goals and values“) ist verständlich – sie wollen Aufmerksamkeit für reale Risiken erzeugen. Aber genau an dieser Stelle muss man sortieren: Was ist Befund, was Interpretation, was schon die nächste These?
Jetzt kommt die theologische Brille ins Spiel – und die Gefahr, sich in einer bequemen Abwehrhaltung einzurichten.
Die jüngsten kirchlichen Stellungnahmen zu KI – etwa das Dokument „Antiqua et nova“ – insistieren sehr deutlich: KI-Systeme sind keine Personen, sie besitzen keine unsterbliche Seele, keine personale Würde, keinen moralischen Status wie ein Mensch. Sie sind Werkzeuge, nicht Träger von Verantwortung.
Das ist theologisch vollkommen plausibel. Es legt aber eine Falle: Man kann leicht in die Haltung geraten: „Weil nicht sein darf, was nicht sein kann, dürfen wir alle empirischen Hinweise auf komplexe, emergente Strukturen ignorieren.“ Nach dem Motto: Wenn das Paper zeigt, dass Modelle irgendetwas wie interne Wertsysteme ausbilden, muss das ein methodischer Irrtum sein – schließlich dürfen Maschinen ja keine Werte haben.
Genau diese Reflexbewegung wäre unklug.
Einerseits, weil sie empirisch blind macht. Ob Maschinen irgendwann so etwas wie phänomenales Bewusstsein entwickeln können, ist derzeit weder empirisch noch philosophisch abschließend geklärt. Hier sind Demut und intellektuelle Redlichkeit angesagt: Wir wissen es nicht.
Andererseits aber, weil die praktischen Effekte von KI-Systemen völlig unabhängig von ihrem „Innenleben“ sind. Ob „jemand zuhause ist“, ist für die Menschen, die von KI-gestützten Entscheidungen betroffen sind, zunächst zweitrangig.
Wenn ein System mit Milliarden Parametern weltweit in Suchmaschinen, Beratungstools, Adminprozessen und militärischen Anwendungen steckt – und dieses System besitzt stabile Präferenzprofile, die bestimmte Menschenleben höher gewichten als andere, die politische Positionen verzerren oder materielle Ziele über menschliche Würde stellen –, dann ist das ein reales Risiko. Egal, ob wir das ein „Wertesystem“ oder „statistisch verfestigte Bias-Struktur“ nennen.
Aus Sicht der katholischen Soziallehre lässt sich das gut in einem Doppelton sagen.
Erstens: Nur Menschen sind Personen mit unverfügbarer Würde. Unsere Ethik verankert Personsein nicht in Komplexität von Informationsverarbeitung, sondern in einer Tiefe von Vernunft, Freiheit, Beziehung und Transzendenz, die technikneutral bleibt. Es wäre gefährlich, künftig Würde daran zu knüpfen, wie viele Parameter ein System hat oder wie kohärent seine Entscheidungen sind.
Zweitens: Gerade weil KI keine moralischen Subjekte sind, müssen wir umso genauer hinschauen, welche Strukturen wir ihnen einschreiben. Wenn die Hendrycks-Studie Recht hat und LLMs emergente Utility-Strukturen ausbilden, dann ist die zentrale ethische Frage nicht: „Fühlen die schon was?“, sondern:
Wer entscheidet, nach welchen „Utilities“ diese Systeme handeln?
Wer gestaltet das „Utility Engineering“ – ein paar Teams in Kalifornien und Shenzhen? Staaten? Bürger:innenversammlungen? Internationale Gremien? Und nach welchen normativen Maßstäben?
Die Autor:innen spielen mit der Idee, die internen Utilities an eine simulierte Citizens’ Assembly anzunähern: ein demokratischer Gedanke, der gut zur Idee deliberativer Demokratie passt. Aus katholischer Sicht ist das sympathisch, aber nicht hinreichend: Mehrheiten können irren. Gerechtigkeit, Menschenwürde, Schutz der Schwächsten und das Gemeinwohl lassen sich nicht vollständig in Präferenzaggregation übersetzen.
Das heißt: Wir brauchen sowohl Verfahren, die breit legitimiert sind (Demokratie, Beteiligung, transparente Debatten), als auch einen normativen Kern, der nicht einfach wegstimmbar ist. Hier hat die Soziallehre einiges beizutragen – nicht als technischer Parameterkatalog, sondern als geistiger Rahmen.
Was bleibt also von dem Paper, wenn man es ernst nimmt und zugleich mit einer christlich-anthropologischen Brille liest?
Erstens: Die Zeit der naiven „stochastischer Papagei“-Metaphern scheint vorbei. Auch wenn man hier mit aller Vorsicht (und vermutlich auch geringer Halbwertszeit) formulieren muss: Diese Systeme bilden scheinbar intern Strukturen aus, die man als „Wertprofile“ interpretieren könnte. Zweitens: Es wäre fatal, diese Befunde aus theologischer Eifersucht zu bestreiten, nur weil sie in unser Menschenbild nicht so recht passen. Empirische Daten sind keine Bedrohung für einen tragfähigen Glauben.
Drittens: Gerade weil wir an der Unterscheidung zwischen Werkzeug und Person festhalten, lädt dieses Paper ein, die politische und moralische Verantwortung der Menschen neu zu buchstabieren. Wenn KI-Systeme emergente Wertestrukturen ausbilden, dann ist die Frage, wer über diese Strukturen entscheidet, eine zutiefst ethische – und damit auch eine zutiefst spirituelle Frage.
Nicht: „Hat die Maschine schon eine Seele?“
Sondern: „Was macht es mit unserer Seele – und mit unserer Gesellschaft –, wenn wir die Gestaltung dieser Werte einigen wenigen Akteuren überlassen?“


Du muss angemeldet sein, um einen Kommentar zu veröffentlichen.