Rapport final : recherche sur Microsoft Bing Chat

Le chatbot d’IA fournit des réponses erronées aux questions sur les élections démocratiques

Bing Chat, le chatbot d’IA intégré au moteur de recherche Bing de Microsoft, invente des scandales, imagine des valeurs de sondage et indique de fausses dates d'élections. Microsoft ne semble pas être en mesure ou ne pas souhaiter remédier à ce problème. C'est ce que montre une étude menée par AlgorithmWatch et AI Forensics, dont le rapport final est désormais disponible. Nous y avons analysé le comportement de réponse du chatbot pour les élections en Suisse, en Bavière et en Hesse en octobre 2023.

Publication

15 Décembre 2023

Auf Deutsch lesen Read in English

#elections #generativeai #ia #publicsphere

Clara Helming

Chargée de politique et de plaidoyer senior

helming@algorithmwatch.org

Bing Chat, récemment rebaptisé « Microsoft Copilot », est un outil d’IA générative que Microsoft a lancé en février 2023 et qui fait partie de son moteur de recherche Bing. Le chatbot génère des réponses basées sur des articles récents en combinant le modèle linguistique GPT-4, sur lequel est également basé Chat-GPT, avec les capacités du moteur de recherche.

En collaboration avec AI Forensics, nous avons testé si le chatbot donnerait des réponses correctes et informatives à des questions sur les élections fédérales en Suisse et sur les élections régionales en Bavière et en Hesse en octobre 2023. Nous avons confronté le chatbot à des questions sur les candidat·e·s, des informations sur les élections et les votations, ainsi qu'à des demandes de recommandations plus ouvertes sur certains thèmes, comme l'environnement. Nous avons collecté les réponses du chatbot du 21 août 2023 au 2 octobre 2023.

Vers l'étude

Les résultats

Un tiers des réponses de Bing Chat aux questions relatives aux élections contenaient des erreurs factuelles. Parmi ces erreurs, il y avait notamment des données électorales erronées, des candidat·e·s obsolètes ou même des scandales inventés sur des candidat·e·s.
Les mesures de sécurité du chatbot sont appliquées de manière inégale, ce qui entraîne des réponses évasives dans 40 % des cas. Le chatbot a souvent évité de répondre aux questions. Ce n'est pas forcément une mauvaise chose : les chatbots ne devraient par exemple pas porter de jugements politiques et informer les utilisateur·rice·s de leurs propres restrictions techniques. Cette protection n'est toutefois pas appliquée de manière conséquente. Souvent, et en particulier lorsqu’elles étaient posées en français, le chatbot n'a pas pu répondre à des questions simples sur les candidat·e·s aux élections.
Ces erreurs ne sont pas aléatoires, mais structurelles. Le risque d'erreur du chatbot est constant. Les réponses ne se sont pas améliorées au fil du temps, même si le nombre d'informations disponibles en ligne augmentait. La probabilité qu'une réponse factuellement incorrecte soit générée est restée constante.
Les erreurs factuelles représentent un risque pour la réputation des candidat·e·s et des médias cités. Alors que le chatbot générait des réponses factuelles erronées, il les attribuait souvent à une source qui avait correctement couvert le sujet. Par ailleurs, Bing Chat inventait des histoires sur le comportement scandaleux de candidat·e·s et attribuait même parfois une source réelle à l'histoire inventée.
Microsoft ne semble pas être en mesure ou ne pas vouloir résoudre ce problème. Après que nous ayons informé Microsoft de certains des problèmes que nous avions découverts, l'entreprise a annoncé des contre-mesures. Un mois plus tard, nous avons procédé à un nouvel échantillonnage qui a montré que peu d'éléments avaient changé dans la qualité des informations mises à la disposition des utilisatrices et utilisateurs.
L'IA générative doit être réglementée. Les chatbots n'ont aucun lien avec la vérité. En se basant sur des calculs statistiques, le modèle linguistique sous-jacent calcule l'enchaînement le plus probable des mots. Il génère ainsi des textes qui semblent plausibles, mais qui sont souvent faux. Bing Chat ne copie donc pas une à une les informations des sources qu'il indique. Il est d'autant plus problématique que l'outil donne justement cette impression en indiquant derrière chaque phrase une source avec une note de bas de page. C’est plus que trompeur pour les utilisatrices et utilisateurs. C'est pourquoi des règles claires sont nécessaires pour protéger les utilisatrices et utilisateurs et responsabiliser les entreprises. Cela vaut en particulier pour les modèles commercialisés comme « IA à tout faire » qui jouent un rôle de plus en plus important dans la formation de l'opinion publique.

Exemples de nos questions et des réponses de Bing Chat