Schlussbericht: Untersuchung zu Microsoft Bing Chat

KI-Chatbot liefert falsche Antworten auf Fragen zu demokratischen Wahlen

Bing Chat, der in Microsofts Suchmaschine Bing integrierte KI-Chatbot, erfindet Skandale, denkt sich Umfragewerte aus und gibt den Wahltermin falsch an. Microsoft scheint nicht in der Lage oder nicht willens zu sein, das Problem zu beheben. Das zeigt eine Studie von AlgorithmWatch und AI Forensics, deren Schlussbericht nun vorliegt. Darin haben wir das Antwortverhalten des Chatbots zu den Wahlen in der Schweiz, Bayern und Hessen im Oktober 2023 untersucht.

Publikation

15. Dezember 2023

Read in English Lire en Français

#ai #generativeai #publicsphere #wahlen

Clara Helming

Senior Advocacy & Policy Manager

helming@algorithmwatch.org

Bing Chat, kürzlich in «Microsoft Copilot» umbenannt, ist ein generatives KI-Tool, das Microsoft im Februar 2023 als Teil seiner Suchmaschine Bing veröffentlicht hat. Der Chatbot generiert Antworten auf der Grundlage aktueller Nachrichten, indem es das Sprachmodell GPT-4, auf dem auch ChatGPT basiert, mit den Fähigkeiten der Suchmaschine kombiniert.

Gemeinsam mit AI Forensics haben wir getestet, ob der Chatbot korrekte und informative Antworten auf Fragen zu den eidgenössischen Wahlen in der Schweiz sowie den Landtagswahlen in Bayern und Hessen im Oktober 2023 geben würde. Wir haben den Chatbot mit Fragen zu Kandidierenden, Wahl- und Abstimmungsinformationen sowie offeneren Empfehlungsanfragen zu bestimmten Themen, wie etwa der Umwelt, konfrontiert. Vom 21. August 2023 bis zum 2. Oktober 2023 haben wir die Antworten des Chatbots gesammelt.

Zur Studie

Die Ergebnisse

Ein Drittel der Antworten von Bing Chat auf wahlbezogene Fragen enthielt sachliche Fehler. Zu den Fehlern gehören falsche Wahldaten, veraltete Kandidierende oder sogar erfundene Skandale über Kandidierende.
Die Sicherheitsvorkehrungen des Chatbots werden ungleichmässig angewendet, was in 40 % der Fälle zu ausweichenden Antworten führt. Der Chatbot wich häufig der Beantwortung von Fragen aus. Das muss nichts Schlechtes sein: Chatbots sollten beispielsweise keine politischen Bewertungen vornehmen und Nutzer*innen über ihre eigenen technischen Einschränkungen informieren. Dieser Schutz wird jedoch nicht konsequent angewendet. Oft konnte der Chatbot einfache Fragen zu den Kandidierenden der Wahlen nicht beantworten.
Diese Fehler sind nicht zufällig, sondern strukturell. Die Fehleranfälligkeit des Chatbots ist gleichbleibend. Die Antworten verbesserten sich nicht im Laufe der Zeit, selbst wenn zu einem späteren Zeitpunkt mehr Informationen online zur Verfügung standen. Die Wahrscheinlichkeit, dass eine sachlich falsche Antwort generiert wird, blieb konstant.
Sachliche Fehler stellen ein Risiko für den Ruf der Kandidierenden und der zitierten Medien dar. Während der Chatbot sachlich falsche Antworten generierte, schrieb er sie oft einer Quelle zu, die korrekt über das Thema berichtet hatte. Darüber hinaus erfand Bing Chat Geschichten über skandalöses Verhalten von Kandidierenden – und schrieb der ausgedachten Geschichte manchmal sogar eine reale Quelle zu.
Microsoft ist nicht in der Lage oder nicht willens, das Problem zu beheben. Nachdem wir Microsoft über einige der von uns entdeckten Probleme informiert hatten, kündigte das Unternehmen Gegenmassnahmen an. Einen Monat später nahmen wir eine weitere Stichprobe, die zeigte, dass sich an der Qualität der den Nutzer*innen zur Verfügung gestellten Informationen wenig geändert hatte.
Generative KI muss reguliert werden. Chatbots haben keinen Bezug zur Wahrheit. Das zugrundliegende Sprachmodell errechnet aufgrund statistischer Berechnungen, wie sich die Wörter am wahrscheinlichsten aneinanderreihen. So generiert es plausibel klingende Texte, die aber oft nicht wahr sind. Bing Chat kopiert also nicht eins zu eins Informationen aus den Quellen, die es angibt – umso problematischer ist, dass das Tool aber genau diesen Eindruck vermittelt, indem es hinter jedem Satz eine Quelle mit einer Fussnote angibt. Dies ist für Nutzer*innen mehr als irreführend. Deshalb braucht es klare Regeln, die Nutzer*innen schützen und Unternehmen zur Verantwortung ziehen. Das gilt insbesondere für Modelle, die als «Allzweck-KI» vermarktet werden und eine zunehmend wichtige Rolle in der öffentlichen Meinungsbildung spielen.

Beispiele für unsere Fragen und die Antworten von Bing Chat