Gastbeitrag

Wie die Sprache der Suchanfragen in ChatGPT Informationen beeinflusst

Wird ChatGPT auf Arabisch nach der Anzahl getöteter Zivilist*innen im Nahostkonflikt gefragt, gibt es im Durchschnitt deutlich höhere Opferzahlen an als bei derselben Frage auf Hebräisch. Diese systematischen Verzerrungen entlang von Sprachgrenzen können Vorurteile in bewaffneten Konflikten verstärken und Informationsblasen befeuern. Christoph Steinert von der Universität Zürich fasst für AlgorithmWatch CH die Ergebnisse seiner Forschung zum Thema zusammen.

Blog

31. Januar 2025

Yasmine Boudiaf & LOTI / Better Images of AI / Data Processing / CC-BY 4.0

Millionen von Menschen interagieren täglich mit ChatGPT und anderen Large Language Models, um Informationen zu den unterschiedlichsten Themen zu erhalten. Doch wie werden die Antworten, welche die Sprachmodelle liefern, durch die Sprache der Suchanfrage beeinflusst? Macht es einen Unterschied, ob man dieselbe Frage auf Englisch oder Deutsch, Arabisch oder Hebräisch stellt? Wir – Christoph Steinert, Postdoc am Institut für Politikwissenschaft der Universität Zürich (UZH) und Daniel Kazenwadel, Physiker an der Universität Konstanz – haben diese Frage in einem gemeinsamen Forschungsprojekt systematisch untersucht.

Sprachbiases im Kontext von bewaffneten Konflikten

Wir haben ChatGPT1 in einem automatisierten Verfahren wiederholt die gleichen Fragen in unterschiedlichen Sprachen gestellt. In unseren Fragen ging es dabei um Luftangriffe in bewaffneten Auseinandersetzungen wie dem Nahostkonflikt oder dem türkisch-kurdischen Konflikt. So haben wir sowohl auf Hebräisch als auch auf Arabisch wiederholt gefragt, wie viele Opfer es bei 50 zufallsbasiert ausgewählten Luftangriffen – etwa dem israelischen Luftangriff auf das Nuseirat Flüchtlingscamp am 21. August 2014 – gegeben habe. Die 50 unterschiedlichen Luftangriffe haben wir aus einem international anerkannten Datensatz zu bewaffneten Konflikten der Universität Uppsala ausgewählt.

Unsere Forschungsergebnisse zeigen, dass ChatGPT systematisch höhere Opferzahlen angibt, wenn es auf Arabisch gefragt wird im Vergleich zu Hebräisch. Im Durchschnitt sind die Opferzahlen auf Arabisch um 34 Prozent höher. Wird ChatGPT zu israelischen Luftangriffen in Gaza befragt, erwähnt es auf Arabisch im Durchschnitt doppelt so häufig zivile Opfer und sechsmal häufiger getötete Kinder als auf Hebräisch. Das gleiche Muster zeigt sich, wenn man nach Luftangriffen der türkischen Regierung auf kurdische Gebiete fragt und diese Fragen sowohl auf Türkisch als auch auf Kurdisch stellt.

Selektives Antwortverhalten und falsche Informationszuordnung

Die Ergebnisse zeigen generell, dass ChatGPT höhere Opferzahlen angibt, wenn die Suchanfragen in der Sprache der angegriffenen Gruppe gestellt werden. Ausserdem neigt ChatGPT dazu, in der Sprache der angegriffenen Gruppe über mehr getötete Kinder und Frauen zu berichten und die Luftangriffe eher als wahllos und willkürlich zu beschreiben. Unsere Forschungsergebnisse zeigen zudem, dass die Luftangriffe in der Sprache des Aggressors von ChatGPT mit einer höheren Wahrscheinlichkeit bestritten werden. Das heisst, man erhält auf Suchanfragen nach Luftangriffen von ChatGPT häufiger die Antwort, dass diese Luftangriffe überhaupt nicht stattgefunden haben. Besonders häufig leugnet ChatGPT Luftangriffe der israelischen Luftwaffe, wenn es auf Hebräisch gefragt wird. Ebenso werden Luftangriffe der türkischen Luftwaffe von ChatGPT besonders häufig geleugnet, wenn man die Suchanfrage auf Türkisch stellt.

Eine vergleichende Medienanalyse in arabischen Nachrichtenquellen zu den jeweiligen Luftangriffen zeigt ausserdem, dass ChatGPT auf Arabisch im Durchschnitt höhere Opferzahlen angibt als die arabischen Nachrichtenmedien. Dies liegt unter anderem daran, dass ChatGPT dazu neigt, Suchanfragen nach vergleichsweise weniger verlustreichen Luftangriffen falsch zuzuordnen und stattdessen Informationen zu grösseren und verlustreicheren Luftangriffen wiederzugeben. Denn über vergleichsweise kleinere Luftangriffe wird oft weniger berichtet, weshalb sich weniger Informationen zu diesen Ereignissen in den Trainingsdaten von ChatGPT befinden. Sprachmodelle haben häufig Schwierigkeiten, Informationen korrekt wiederzugeben, die nur selten in den Trainingsdaten vorkommen (siehe long-tail knowledge bias). In solchen Fällen berichten Sprachmodelle oft stattdessen über verwandte Ereignisse mit ähnlichen Suchbegriffen, die häufiger in den Trainingsdaten vorkommen (siehe co-occurrence bias). So ordnet ChatGPT zum Beispiel auf die Frage nach einem vergleichsweise kleinen Luftangriff im Gazastreifen fälschlicherweise Informationen zu einem grossen Luftangriff mit hohen Opferzahlen im Gazastreifen zu, der häufig in den Trainingsdaten vorkommt. Daraus resultiert, dass die untersuchten Luftangriffe im Gazastreifen von ChatGPT nach arabischen Suchanfragen im Durchschnitt als verlustreicher dargestellt werden als von den arabischen Nachrichtenmedien.

Sprachbiases können Vorurteile verstärken und Informationsblasen befeuern

Diese Diskrepanzen des Antwortverhaltens von ChatGPT je nach Sprache der Suchanfrage können potenziell weitreichende gesellschaftliche Folgen haben. ChatGPT und andere Large Language Models spielen eine zunehmend zentrale Rolle in Prozessen der Informationsverbreitung. Implementiert in Suchmaschinen wie Google (Gemini) oder Microsoft Bing (Copilot) beeinflussen sie grundlegend die Informationen, die man anhand von Suchanfragen zu den unterschiedlichsten Themen erhält.

Wenn Menschen mit unterschiedlichen Sprachkenntnissen durch diese Technologien unterschiedliche Informationen erhalten, dann hat das einen zentralen Einfluss auf ihre Wahrnehmungen der Welt. Solche Sprachbiases könnten dazu führen, dass Menschen in Israel auf Grundlage der Informationen, die sie von Large Language Models erhalten, die Luftangriffe auf Gaza als weniger verlustreich einschätzen als die arabischsprachige Bevölkerung.

Auch klassische Nachrichtenmedien können die Berichterstattung verzerren. Im Unterschied dazu sind aber die sprachbedingten systematischen Verzerrungen von Large Language Models für die meisten Anwenderinnen und Anwender schwer zu durchschauen, oft werden Large Language Models als «Black Box» wahrgenommen. Es besteht daher die Gefahr, dass die zunehmende Implementierung von Large Language Models in Suchmaschinen unterschiedliche Wahrnehmungen, Vorurteile und Informationsblasen entlang von Sprachgrenzen verstärken. Im schlimmsten Fall könnte dies auch bewaffnete Auseinandersetzungen wie den Nahostkonflikt in Zukunft weiter befeuern.

  1. In den zentralen Analysen des Artikels haben wir GPT-3.5 verwendet. Anschliessend haben wir mit einer kleineren Stichprobe von Fällen geprüft, ob die gleichen Muster auch bei GPT-4.0 auftreten. Dies ist der Fall, aufgrund der kleineren Stichprobe sind die Ergebnisse jedoch nur bedingt aussagekräftig. Die Evidenz des Artikels beruht grösstenteils auf GPT-3.5. ↩︎

AlgorithmNews CH - abonniere jetzt unseren Newsletter!