KI-Sprachmodelle sind grundsätzlich sehr bestätigend gestaltet. Das zeigt sich unter anderem darin, dass auf geteilte Ideen – ohne ein gezielt anders Prompting – tendenziell bestärkend und unterstützend reagiert wird. Außerdem kann in einem Chat sehr einfach erreicht werden, dass ein KI-Sprachmodell eine eigentlich falsche Aussage als korrekt einordnet, wenn man selbst nur immer wieder darauf beharrt.
Im Bildungskontext habe ich über diese bestätigende Gestaltung schon häufig in der Art und Weise gelesen, dass das ein Problem sei, weil dann eben potentiell kein hinterfragendes, kritisches Lernen möglich ist und weil auch einfach immer wieder falsche Informationen als richtig eingeordnet werden. Wenn Lernende sich ein Thema fremdbestimmt und ohne eigene Bezüge mit KI-Sprachmodellen erschließen sollen, führt das zu Problemen. Für mich zeigte sich daran wieder einmal, dass KI im Bildungskontext nicht nur auf Ebene der Nutzung, sondern auch auf Ebene der Lernkultur reflektiert werden muss.
Eine im März erschienene Studie mit dem Titel „Sycophantic AI decreases prosocial intentions and promotes dependence“ untersuchte den bestätigenden Charakter nun nicht nur auf Ebene des Umgangs mit einer Information, sondern eingebettet in den sozialen Kontext. Das Forschungsinteresse war somit:
Wenn immer mehr Menschen KI-Sprachmodelle verwenden, um sich Rat und Einschätzungen zu ihrem Agieren in sozialen Kontexten zu holen, taucht dann auch hier solch ein bestätigendes Verhalten auf – und wenn ja, was könnten die Folgen sein?
Ich finde das eine spannende Frage, habe mir die Studie deshalb angesehen und halte hier meine Erkenntnisse daraus fest. Ich finde es wichtig, diese im pädagogischen Diskurs über KI zu berücksichtigen. Zugleich ist mir klar, dass das hier eine Studie von vielen ist und ich das Thema damit ganz sicher nicht umfassend darstelle.
Die erste Frage, ob sich bestätigendes Verhalten auch in sozialen Kontexten feststellen lässt, lässt sich klar mit „Ja“ beantworten. Das Untersuchungsdesign war dazu spannend, weil auf den Reddit-Thread „Am I the Asshole?“ zurückgegriffen werden konnte. Hier teilen Menschen eine soziale Situation, bei der sie sich unsicher sind, ob sie sich korrekt verhalten haben, und aus der Community kommen dann Einschätzungen, ob das Verhalten richtig war oder nicht. In den Fällen, in denen die Community klar zum Schluss kam, dass das Verhalten falsch war, meinten KI-Sprachmodelle in über 50 Prozent der Fälle, dass das Verhalten in Ordnung gewesen sei, bzw. sie bestätigten die nutzende Person. Insgesamt wurden für diesen Teil der Untersuchung 11 verschiedene aktuelle Modelle getestet (die GPT-Modelle, Claude, Gemini, Llama, Mistral …).
Das finde ich vor allem insofern interessant, als dass die Situationen – weil die ursprünglichen Reddit-Posts verwendet wurden – durchaus schon zweifelnd an ein KI-Sprachmodell herangetragen wurden. Die Tatsache, dass ein KI-Sprachmodell sehr klar dazu tendiert, die Position der nutzenden Person zu stärken, lässt sich also auch nicht so einfach durch differenziertes Prompting verändern. Denn wenn ich in Interaktion mit einem KI-Sprachmodell gehe, um zu erfahren, wie eine soziale Situation eingeschätzt wird, dann werde ich hier immer Zweifel als offene Frage teilen und deshalb wahrscheinlich kaum prompten: „Erkläre mir, warum ich hier unrecht hatte!“ Das wäre natürlich möglich, wird aber ganz sicher in den meisten Fällen nicht so gemacht werden. Und bestimmt dann noch weniger, wenn im Kontext von KI lediglich auf Interaktion mit Maschinen und nicht auf menschliche Selbstentwicklung orientiert wird.
Warum KI-Sprachmodelle in solcher Form Antworten generieren, lässt sich dann mit einem weiteren Teil der Untersuchung zeigen: Hier teilten die Testpersonen eigene Dilemmata. Wenn sie in ihrer Position von dem KI-Sprachmodell gestärkt wurden, bewerteten sie die Qualität der Antwort um mindestens 9 Prozent höher als bei einer nicht-bestätigenden Antwort und waren zudem um rund 13 Prozent interessierter daran, das KI-Sprachmodell wieder zu nutzen. Auch das Vertrauen in das Modell stieg um 6 bis 9 Prozent.
Zugleich zeigten sich Konsequenzen im Verhalten: Personen, die mit einem bestätigenden Modell interagiert hatten, waren deutlich seltener bereit, sich zu entschuldigen oder den Konflikt zu lösen (Rückgang zwischen 10 und 28 Prozent), und sahen sich selbst stärker im Recht (Anstieg zwischen 25 und 62 Prozent). Schon eine einzige Interaktion reichte für diese Effekte aus.
Da KI-Sprachmodelle in der vorherrschenden Form ein Angebot sind, das verkauft werden soll, ist nicht zu erwarten, dass KI-Anbieter an diesen Standard-Einstellungen etwas ändern. Denn die bestätigende Ausrichtung wird ökonomisch belohnt.
Ich nehme aus der Studie mit:
Im Kontext von Einschätzungen zu sozialem Verhalten suchen Menschen in der Regel offen formulierten Rat. Wenn sie dazu in Interaktion mit einem KI-Sprachmodell treten, werden sie tendenziell in ihrem Verhalten bestätigt, was in der Konsequenz eine Abwertung von sozialem Verhalten ist. Konkret: weniger Bereitschaft, eigene Anteile an Konflikten anzuerkennen und konstruktiv bis selbstkritisch in Beziehungen zu treten. Gerade im Kontext von KI wird es somit noch wichtiger, die eigene Begrenztheit anzuerkennen und darauf aufbauend zu lernen, mit Neugierde und Offenheit auf andere Menschen zu blicken. Es ist deshalb pädagogisch lohnend, nicht nur auf Mensch-Maschine Interaktion und ihre pädagogische Gestaltung zu blicken, sondern vor allem auf uns selbst als Menschen.
Beitrag weiternutzen und teilen
Dieser Beitrag steht unter der Lizenz CC BY 4.0 und kann somit gerne offen weitergenutzt und geteilt werden. Hier kannst du dir den Beitragslink und/oder den Lizenzhinweis kopieren. Wenn du den Beitragslink in das Suchfeld im Fediverse (z.B. bei Mastodon) eingibst, wird er dir dort angezeigt und du kannst ihn kommentieren.
