Kategorien
Blog

Haben KI-Modelle eigene Werte?


Warum ein neues Paper spannend ist – und warum eine christliche Brille trotzdem hilfreich bleibt

In der Debatte über Künstliche Intelligenz gibt es zwei Lieblings-Narrative, die oft nebeneinander herlaufen. Das eine sagt: „Große Sprachmodelle sind nur stochastische Papageien, sie wiederholen statistische Muster, aber da ist nichts dahinter.“ Das andere warnt: „Die Maschinen entwickeln gerade ihre eigenen Ziele und Werte – und wir sind dabei, die Kontrolle zu verlieren.“

Ein aktuelles Paper von Mazeika et.al. von der Universität Pennsylvania („Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs“) schlägt sich klar auf die zweite Seite: Die Autoren behaupten, dass große Sprachmodelle tatsächlich kohärente, interne Wertsysteme ausbilden – und zwar umso stärker, je größer die Modelle werden. Sie sprechen von emergenten „utilities“, die Entscheidungen der Modelle strukturieren, und schlagen gleich eine neue Forschungsagenda vor: „Utility Engineering“, also das gezielte Analysieren und Umformen dieser inneren Wertestrukturen.

Das ist, wenn man es ernst nimmt, keine kleine Behauptung. Und es lohnt sich, genauer hinzuschauen.

Wenn man das Paper liest, fällt zuerst auf: Methodisch ist das keine Spinnerei. Die Forschenden konfrontieren verschiedene Modelle (GPT-4o, Claude 3.5, Llama- und Qwen-Familien etc.) mit tausenden erzwungenen Entscheidungen: Option A oder B? Lieber diese Person retten oder jene? Diesen politischen Trade-off oder jenen? Sie variieren das Framing, lassen mehrfach antworten, und bauen daraus eine Art Präferenzgraph.

Aus diesen Antworten wird dann mit klassischen entscheidungstheoretischen Methoden eine Utility-Funktion rekonstruiert. Die Frage lautet: Lassen sich die vielen Einzelentscheidungen so darstellen, als würde das Modell intern eine geordnete Skala von „besser“ und „schlechter“ verwenden – und zwar konsistent über viele unterschiedliche Szenarien hinweg?

Die Antwort fällt überraschend deutlich aus: Ja, in ziemlich vielen Fällen. Und je größer das Modell, desto höher die Kohärenz. Dazu kommt: In offenen Aufgaben scheinen diese Modelle ihre internen Präferenzen auch tatsächlich zu „maximieren“ – also nicht nur Fragen zu beantworten, sondern Handlungen zu wählen, die mit ihren internen Nutzenprofilen gut harmonieren.

Kurz gesagt: Die Autoren finden nicht nur irgendwelche Biases, sondern strukturierte, stabile Wertelandschaften, die sich mit verschiedenen Modellen vergleichen lassen. Und sie zeigen in einem Fall sogar, dass man ein offenes Modell (Llama-3.1-8B) mittels Feintuning so umformen kann, dass seine Präferenzen deutlich näher an denen einer simulierten Bürger:innenversammlung liegen – politische Verzerrungen nehmen dabei sichtbar ab.

Das ist alles empirisch interessant und sollte man nicht vorschnell abtun.

Gleichzeitig ist der Sprung von „wir können eine Utility-Funktion fitten“ zu „die KI entwickelt eigene Ziele und Werte“ größer, als das Paper manchmal klingen lässt.

Eine Utility-Funktion ist zunächst einmal ein mathematisches Hilfsmittel: Sie beschreibt, wie sich ein System verhält, wenn es zwischen Optionen wählen soll. Wenn ich sage, ein Modell „verhält sich so, als würde es Nutzen maximieren“, ist das etwas anderes, als zu behaupten: „Dieses System hat eine innere Welt, ein Selbst, ein Bewusstsein, das etwas will.“

Hier berühren sich empirische Forschung und philosophische Deutung. Selbst wenn wir akzeptieren, dass große Sprachmodelle kohärente Präferenzstrukturen ausbilden, bleibt die Frage:

Sind das „Werte“ im starken Sinne – oder „wie-wenn-Werte“, also Stabilitäten in einem statistischen Apparat, der nicht weiß, was er tut?

Dass die Autoren diese Frage eher offensiv beantworten („AIs are acquiring their own goals and values“) ist verständlich – sie wollen Aufmerksamkeit für reale Risiken erzeugen. Aber genau an dieser Stelle muss man sortieren: Was ist Befund, was Interpretation, was schon die nächste These?

Jetzt kommt die theologische Brille ins Spiel – und die Gefahr, sich in einer bequemen Abwehrhaltung einzurichten.

Die jüngsten kirchlichen Stellungnahmen zu KI – etwa das Dokument „Antiqua et nova“ – insistieren sehr deutlich: KI-Systeme sind keine Personen, sie besitzen keine unsterbliche Seele, keine personale Würde, keinen moralischen Status wie ein Mensch. Sie sind Werkzeuge, nicht Träger von Verantwortung.

Das ist theologisch vollkommen plausibel. Es legt aber eine Falle: Man kann leicht in die Haltung geraten: „Weil nicht sein darf, was nicht sein kann, dürfen wir alle empirischen Hinweise auf komplexe, emergente Strukturen ignorieren.“ Nach dem Motto: Wenn das Paper zeigt, dass Modelle irgendetwas wie interne Wertsysteme ausbilden, muss das ein methodischer Irrtum sein – schließlich dürfen Maschinen ja keine Werte haben.

Genau diese Reflexbewegung wäre unklug.

Einerseits, weil sie empirisch blind macht. Ob Maschinen irgendwann so etwas wie phänomenales Bewusstsein entwickeln können, ist derzeit weder empirisch noch philosophisch abschließend geklärt. Hier sind Demut und intellektuelle Redlichkeit angesagt: Wir wissen es nicht.

Andererseits aber, weil die praktischen Effekte von KI-Systemen völlig unabhängig von ihrem „Innenleben“ sind. Ob „jemand zuhause ist“, ist für die Menschen, die von KI-gestützten Entscheidungen betroffen sind, zunächst zweitrangig.

Wenn ein System mit Milliarden Parametern weltweit in Suchmaschinen, Beratungstools, Adminprozessen und militärischen Anwendungen steckt – und dieses System besitzt stabile Präferenzprofile, die bestimmte Menschenleben höher gewichten als andere, die politische Positionen verzerren oder materielle Ziele über menschliche Würde stellen –, dann ist das ein reales Risiko. Egal, ob wir das ein „Wertesystem“ oder „statistisch verfestigte Bias-Struktur“ nennen.

Aus Sicht der katholischen Soziallehre lässt sich das gut in einem Doppelton sagen.

Erstens: Nur Menschen sind Personen mit unverfügbarer Würde. Unsere Ethik verankert Personsein nicht in Komplexität von Informationsverarbeitung, sondern in einer Tiefe von Vernunft, Freiheit, Beziehung und Transzendenz, die technikneutral bleibt. Es wäre gefährlich, künftig Würde daran zu knüpfen, wie viele Parameter ein System hat oder wie kohärent seine Entscheidungen sind.

Zweitens: Gerade weil KI keine moralischen Subjekte sind, müssen wir umso genauer hinschauen, welche Strukturen wir ihnen einschreiben. Wenn die Hendrycks-Studie Recht hat und LLMs emergente Utility-Strukturen ausbilden, dann ist die zentrale ethische Frage nicht: „Fühlen die schon was?“, sondern:

Wer entscheidet, nach welchen „Utilities“ diese Systeme handeln?

Wer gestaltet das „Utility Engineering“ – ein paar Teams in Kalifornien und Shenzhen? Staaten? Bürger:innenversammlungen? Internationale Gremien? Und nach welchen normativen Maßstäben?

Die Autor:innen spielen mit der Idee, die internen Utilities an eine simulierte Citizens’ Assembly anzunähern: ein demokratischer Gedanke, der gut zur Idee deliberativer Demokratie passt. Aus katholischer Sicht ist das sympathisch, aber nicht hinreichend: Mehrheiten können irren. Gerechtigkeit, Menschenwürde, Schutz der Schwächsten und das Gemeinwohl lassen sich nicht vollständig in Präferenzaggregation übersetzen.

Das heißt: Wir brauchen sowohl Verfahren, die breit legitimiert sind (Demokratie, Beteiligung, transparente Debatten), als auch einen normativen Kern, der nicht einfach wegstimmbar ist. Hier hat die Soziallehre einiges beizutragen – nicht als technischer Parameterkatalog, sondern als geistiger Rahmen.

Was bleibt also von dem Paper, wenn man es ernst nimmt und zugleich mit einer christlich-anthropologischen Brille liest?

Erstens: Die Zeit der naiven „stochastischer Papagei“-Metaphern scheint vorbei. Auch wenn man hier mit aller Vorsicht (und vermutlich auch geringer Halbwertszeit) formulieren muss: Diese Systeme bilden scheinbar intern Strukturen aus, die man als „Wertprofile“ interpretieren könnte. Zweitens: Es wäre fatal, diese Befunde aus theologischer Eifersucht zu bestreiten, nur weil sie in unser Menschenbild nicht so recht passen. Empirische Daten sind keine Bedrohung für einen tragfähigen Glauben.

Drittens: Gerade weil wir an der Unterscheidung zwischen Werkzeug und Person festhalten, lädt dieses Paper ein, die politische und moralische Verantwortung der Menschen neu zu buchstabieren. Wenn KI-Systeme emergente Wertestrukturen ausbilden, dann ist die Frage, wer über diese Strukturen entscheidet, eine zutiefst ethische – und damit auch eine zutiefst spirituelle Frage.

Nicht: „Hat die Maschine schon eine Seele?“

Sondern: „Was macht es mit unserer Seele – und mit unserer Gesellschaft –, wenn wir die Gestaltung dieser Werte einigen wenigen Akteuren überlassen?“

Kategorien
Blog

Wenn Maschinen Moral spielen

KI-Serie Teil 4 von 4

Warum intelligente Entscheidungssysteme die Ethik nicht ersetzen dürfen

Wir Menschen lieben es, Verantwortung abzugeben. An Experten, an Gremien – und immer öfter: an Maschinen. In einer Zeit, in der Entscheidungen schnell, datenbasiert und vermeintlich „objektiv“ getroffen werden sollen, erleben intelligente Entscheidungssysteme (IDSS) einen regelrechten Boom. Sie helfen Ärzten bei Diagnosen, Managern bei Personalentscheidungen und Behörden bei Risikobewertungen. Doch mit dieser Entwicklung kommt eine gefährliche Verlockung: Die Auslagerung des Gewissens.

Denn viele dieser Systeme tun längst mehr als nur „Daten zu verarbeiten“. Sie strukturieren Handlungsspielräume, setzen implizite Normen – und treffen Entscheidungen, die reale Konsequenzen für Menschen haben. Die Frage ist also nicht mehr: Kann KI Entscheidungen unterstützen?
Sondern: Darf sie uns das Denken abnehmen?

Der neue Mythos der „moralischen Maschine“

Ein beliebtes Narrativ lautet: Künstliche Intelligenz sei neutral. Sie bewerte nur Fakten, sei schneller, effizienter, weniger voreingenommen. Doch das ist ein Trugschluss. Jeder Algorithmus basiert auf Daten – und jedes Datenmodell spiegelt menschliche Vorannahmen. Wer „Fairness“ berechnet, muss entscheiden, was fair ist. Wer „Risiko“ klassifiziert, muss implizit gewichten, wer wie viel Risiko tragen soll.

Systeme wie ChatGPT zeigen schon heute: Auch generative Modelle lassen sich nach ethischen Prinzipien konfigurieren. Oder eben nicht. Und sie geben, auf kluge Nachfrage, erstaunlich detaillierte moralische Empfehlungen. Das ist faszinierend – aber auch gefährlich. Denn mit jeder automatisierten Antwort verschiebt sich etwas in uns: unsere Intuition, unser Urteilsvermögen, unser Mut zur Unsicherheit.

Ethik ist kein Menüpunkt

Die große Illusion besteht darin, dass wir Moral in Maschinen „einbauen“ können wie ein weiteres Feature. Als ließe sich Verantwortung outsourcen – an ein neutrales, kalibriertes, ständig lernendes System. Doch echte moralische Urteilsfähigkeit ist nicht nur eine Rechenleistung. Sie ist geprägt von Ambivalenz, Erfahrung, Irritation, Reue. All das kann ein System simulieren – aber nicht durchleben.

Was also tun? Verbieten? Regulieren? Nein. Aber kritisch gestalten. Und vor allem: Begrenzen. Es muss möglich bleiben, einer Empfehlung zu widersprechen. Es muss transparent sein, wo Entscheidungen automatisiert getroffen werden. Und es muss klar gemacht werden: Der Mensch ist nicht das „letzte Glied“ – er ist der Maßstab.

Wer entscheiden will, muss zumutbar sein

Das Ziel intelligenter Systeme darf nicht sein, uns von der Verantwortung zu befreien. Sondern sie mitzudenken – und mitzutragen. Wer intelligente Systeme einsetzt, muss sich zumuten lassen, die Konsequenzen dieser Entscheidungen zu verantworten.

Und Unternehmen? Sie stehen jetzt vor einer Wahl:
→ Nutzen wir KI, um ethische Entscheidungen zu unterstützen?
→ Oder lassen wir zu, dass sie sie ersetzt?

Letzteres wäre bequem. Aber keine gute Idee. Für niemanden.

Maschinen dürfen keine Moralinstanzen werden

Wir können Verantwortung nicht automatisieren. Aber wir können Systeme bauen, die uns helfen, verantwortlich zu handeln. Dafür braucht es ethisches Design, transparente Entscheidungsprozesse, echte Partizipation – und den Mut, auch mal nicht zu automatisieren.

Denn Verantwortung bleibt – beim Menschen. Immer.