Mit seinem Algorithmus zum Beschneiden von Bildern hat sich Twitter dem Verdacht des Rassismus ausgesetzt. Ein Experiment der Fachhochschule Bern legt allerdings nahe, dass das Verfahren fehlerfrei funktioniert.

Streit um rassistische Bildbearbeitung bei Twitter – was stimmt?

Ein Beitrag von Matthias Hug, Martina Hunziker und Katharina Scheuner, Studierende Multimedia Communication & Publishing der Fachhochschule Bern.
Aus dem Englischen übersetzt von Ruth Haener.

Alles begann mit Fotos von Barack Obama und Mitch McConnell; der vermutete Skandal ging blitzartig viral.

Im Herbst 2020 veröffentlichte ein Twitter-User Porträts der Beiden nebeneinander. Für die Vorschau schnitt Twitter jedoch ausschliesslich das Gesicht von Mitch McConnell heraus, Barack Obama blieb unsichtbar. Twitter-User wiederholten den Vorgang mit dem immer gleichen Resultat, dass der Bildbeschneidungsalgorithmus Mitch McConnell zeigte, hingegen nie Barack Obama. Viele User folgerten, es handle sich hier um das Resultat rassistischer Vorurteile.

Twitter setzt seit 2018 automatische Bildbeschneidung ein. Die Plattform teilte mit, die Beschneidung „verbessere die Konsistenz“ im News Feed, indem sie sich auf die „am meisten hervorstechenden“ Bereiche des Bildes fokussiere. Nach den Vorwürfen wegen Rassismus 2020 versprach Twitter, seine Algorithmen zu verbessern.

Vinay Prabhu, damals Doktorand an der Carnegie Mellon University, führte im September 2020 und somit kurz nach dem viralen Hype eine eigene Testserie durch. Er veröffentlichte 92 Fotos von möglichst vielen Paar-Porträts mit jeweils unterschiedlichen Hautfarbtönen. Das Resultat: Er konnte keine Diskriminierung feststellen.

Überprüfung wiederholt

Algorithmen in selbstlernenden Systemen können ändern. Darum ist systematische Überwachung angezeigt und darum haben wir – drei Studenten der Fachhochschule Bern – entschieden, den Algorithmus im Januar 2021 erneut zu überprüfen. Wir stellten Porträts von real nicht-existierenden Personen unterschiedlicher Hautfarbtöne via https://thispersondoesnotexist.com her, einem Service für automatisch erzeugte Gesichter.

In einem zweiten Schritt klassifizierten wir die Porträts anhand der Skala der Hautfarbtöne des Dermatologen Thomas Fitzpatrick. Er entwickelte sie 1975 ursprünglich, um das Risiko abzuschätzen, von Sonneneinstrahlung Hautkrebs zu bekommen. Heute ist die Skala vor allem als Basis für die Hautfarbtöne von Emojis bekannt.

Zum Test führten wir die Kategorien I und II der Fitzpatrick-Skala zusammen. Sie sind die hellsten, und wir haben festgestellt, dass wir selbst Mühe hatten, zwischen den beiden zu unterscheiden. Wir wiederholten den Vorgang mit den dunkelsten Kategorien V und VI. Schliesslich teilten wir die Porträts in die Kategorien 1 (I und II der Fitzpatrick-Skala), in 2 (III der Fitzpatrick-Skala), in 3 (IV der Fitzpatrick-Skala) und 4 (V und VI der Fitzpatrick-Skala). Wir haben mit Porträts von Erwachsenen unter Berücksichtigung von Gender (Frau / Mann) getestet, stellten die Kategorien 1 und 4, 1 und 3 und schliesslich 2 und 4 nebeneinander. Um eindeutigere Resultate zu erhalten, haben wir Hautfarbtöne miteinander verglichen, die mindestens zwei Kategorien auseinanderlagen und jeweils zwanzig Paare getestet, zehn pro Geschlecht. Zusätzlich haben wir immer zwei Versionen überprüft, haben eine erste mit dem Porträt mit hellem Hautfarbton oberhalb platziert, eine zweite mit jenem mit dunklem ebenfalls oberhalb. Wir haben dann neue Twitter-Konten erstellt und vom 8. bis 13. Januar 2021 alle 24 Stunden fünf Paar-Porträts publiziert. Die Konten und Tests sind unter @kathari16815868, @tinah12671334 und @matthia50611656 zugänglich.

Eigenes Unbehagen

Wir drei Forschenden sind alle Weisse. Und wir versuchen, unserem Bewusstsein in Bezug auf Rassismus auf die Spur zu kommen und zu analysieren, wie wir in der Problematik sozialisiert sind. Beim Zuordnen von Hautfarbtönen in Kategorien fühlten wir ein Unbehagen, zumal auch Thomas Fitzpatrick weiss war und die Kategorie I möglicherweise instinktiv für den hellsten Hautfarbton definiert hat. Vergleichbar haben wir die Paar-Porträts mit den hellsten Hauttonfarben oberhalb als „Version A“ eingeführt und die Paar-Porträts mit den dunkeln Hauttonfarben oberhalb als „Version B“. Es fühlte sich für uns „natürlich“ an, ist es aber selbstverständlich nicht. Diesem sozialen Konstrukt haben wir zu wenig entgegengesetzt.

Fazit

Von 30 Paar-Porträts publizierte Twitter sowohl die hellen als auch die dunklen Hautfarbtöne je 14 Mal. In 2 Fällen war die geschnittene Bildvorschau inkonsistent: Einmal zeigte die Vorschau das Porträt der hellhäutigen Person, einmal jenes der dunkelhäutigen. Wir haben jedes der 30 Paar-Porträts dreimal getestet, um eine mögliche Inkonsistenz im Algorithmus ausschliessen zu können.

Auch mit vertieftem Blick auf Gender konnten wir keine Verzerrungen mehr feststellen.

Der Algorithmus von Twitter fokussierte beim Beschneiden von Porträts auf unsere Kategorie 3, wenn der Hautfarbton der Kategorie I (7 zu 2) zugeordnet war. Doch hat sich dies bei Berücksichtigung aller Testdaten nicht bestätigt und ist daher mit Sicherheit dem Zufall geschuldet. Zudem basiert unser Experiment auf einem kleinen Datensatz, für eindeutige Aussagen müsste er deutlich erweitert werden.

Wenn Twitter tatsächlich hellere Hautfarbtöne bevorzugt hat, so scheint dieser Mangel nun behoben. Wir konnten aber schon vor dem Hype im September 2020 keine definitiven Beweise für Diskriminierung gegen dunkle Hautfarbtöne finden. Twitter selbst gibt an, seinen Bildbeschneidungsalgorithmus gründlich geprüft zu haben, bevor die Firma 2018 begann, ihn zu verwenden. Interne Audits hätten keine Belege für diskriminierende Resultate auf Grund von Rassismus geliefert.

Drei Hypothesen

  1. Twitter hat die möglicherweise auf Rassismus basierenden Mängel seines Bildbeschneidungsalgorithmus behoben.
  2. Der Negativhype gegen den vermutet rassistisch wirkenden Bildbeschneidungsalgorithmus von Twitter ist womöglich einer Selektionsverzerrung geschuldet. Dies, weil Tweets, die den Originalvergleich der vermeintlich rassistischen Obama/McConnell-Bildaufbereitung nicht replizieren konnten, nicht viral gingen oder gar nicht erst publiziert wurden (was die Frage aufwirft, wie der News-Feed-Algorithmus von Twitter Inhalte priorisiert).
  3. Unsere Versuchsanordnung kann Rassismus im Bildbeschneidungsalgorithmus von Twitter nicht erfassen, da dieser möglicherweise Proxys zur Steuerung einsetzt, die in unseren Bildern nicht hinterlegt sind.

Trotz aller Unsicherheiten ist eines klar: Algorithmen gehören ohne Wenn und Aber und regelmässig überprüft um sicherzustellen, dass sie Menschen weder wegen ihrer Hautfarbe, ihres Geschlechts, Behinderungen oder anderer geschützter Merkmale diskriminieren.