Gastbeitrag

Automatisierte Strafjustiz auf wissenschaftlich wackeligen Beinen

In der Schweiz werden Algorithmen eingesetzt, um das Rückfallrisiko von Straftäter*innen einzuschätzen. Eine journalistische Recherche im Auftrag von AlgorithmWatch CH zeigt, dass sie an vielen Orten zur Anwendung kommen, auch wenn dies für Betroffene kaum nachvollziehbar ist. Tim Räz, Forscher an der Universität Bern, erläutert in diesem Gastbeitrag exklusiv, wie fragwürdig diese Systeme aus wissenschaftlicher Sicht sind.

Foto: Matthew Ansley | Unsplash

Manche Algorithmen sind unfair und reproduzieren Rassismus und Sexismus. Diese Tatsache wird seit einigen Jahren auch in der Forschung vermehrt diskutiert. Ein Fall, der die Forschungsdebatte stark geprägt hat, ist COMPAS. Mit diesem Algorithmus soll die Rückfallgefahr von Straftäter*innen in den USA vorhergesagt werden, auf der Basis von Eigenschaften dieser Menschen, die als relevant gelten. In einer vieldiskutierten Untersuchung fand die NGO ProPublica heraus, dass COMPAS Schwarze Menschen benachteiligt (ihnen gegenüber «biased» ist). ProPublica zeigte auf, dass COMPAS fehlerhafte Prognosen zulasten Schwarzer Menschen machte: COMPAS überschätzte bei ihnen die Rückfallgefahr, während das Tool gleichzeitig die Rückfallgefahr bei Weissen Menschen unterschätzte.

COMPAS wird in verschiedenen US-Bundesstaaten eingesetzt. Doch wie ist die Situation in der Schweiz? Hier kommen mit dem gleichen Zweck ebenfalls Algorithmen wie COMPAS zur Anwendung. FOTRES ist ein ganz ähnliches «Risikobeurteilungsinstrument», mit dem die Rückfallgefahr bei potenziellen Straftäter*innen untersucht wird. Während es einige wichtige Unterschiede zwischen FOTRES und COMPAS gibt, ist das Ziel im Wesentlichen das Gleiche, nämlich die Rückfallgefahr von Menschen auf der Basis relevanter Eigenschaften vorherzusagen. Der Beurteilungsprozess von FOTRES ist komplex, deshalb hier nur ein paar Eckdaten: Die in die Berechnung einfliessenden Eigenschaften umfassen unter anderem Informationen über Gewalttätigkeit, Sexualität, psychische Störungen und Suchtverhalten. Die Vorhersage erfolgt in der Form einer Risikostufe zwischen 0 («sehr geringes Risiko») und 4 («sehr hohes Risiko»), in Abstufungen von 0,5-Schritten.

Wie gut funktioniert FOTRES? In einer Studie aus dem Jahr 2011 wurden dessen Vorhersagen für eine Gruppe von 109 (männlichen) Straftätern mit den tatsächlichen Rückfallquoten in dieser Gruppe verglichen. Die Risikoprognosen von FOTRES waren von ähnlicher Qualität wie die vergleichbarer Instrumente. Trotzdem ist FOTRES aus wissenschaftlicher Sicht bedenklich, und zwar aus den folgenden Gründen.

Erstens ist nicht bekannt, ob die FOTRES-Vorhersagen Menschen nach ihrer Ethnie oder ihrem Geschlecht benachteiligen. Diese Frage wurde bisher nicht untersucht. In der Studie von 2011 wurden Frauen nicht berücksichtigt, ebenso wenig Ausländer*innen ohne festen Wohnsitz in der Schweiz. Diese Menschen werden nach der Haft oft in ihre Herkunftsländer «ausgeschafft», was das Feststellen von tatsächlichen Rückfällen enorm schwierig macht.

Zweitens gibt es keine unabhängige Studie, die bestätigt, dass die Vorhersagen von FOTRES befriedigend sind. Bei der Studie von 2011 wurde FOTRES von Forscher*innen überprüft, die an dessen Entwicklung beteiligt waren oder mit dem FOTRES-Hauptentwickler Frank Urbaniok zusammengearbeitet hatten. Dies muss nicht zwangsläufig problematisch sein, allerdings ist bekannt, dass unabhängige Studien oft zu kritischeren Befunden kommen als abhängige («authorship bias»). Deshalb wäre eine unabhängige Überprüfung wichtig.

Drittens ist FOTRES nicht ein fester, unveränderter Algorithmus, sondern wird ständig weiterentwickelt. Ab einem bestimmten Grad der Weiterentwicklung haben wir es gewissermassen mit einem neuen Algorithmus zu tun, und dieser müsste auf seine korrekte Funktionsweise und potenziell diskriminierenden Auswirkungen hin erneut überprüft werden. Allerdings ist dies im Fall von FOTRES seit 2011 nicht geschehen. Gegenwärtig wird FOTRES in der Version 4.0 angewendet, in der Studie von 2011 wurde aber FOTRES 2.0 untersucht. Es ist nicht bekannt, inwiefern sich die Vorhersagen der Versionen unterscheiden. Die FOTRES-Entwickler*innen müssten alle neuen Versionen umfassend untersuchen und die Ergebnisse publizieren, um sie für andere Forschende überprüfbar zu machen.

Viertens kritisieren Expert*innen aus der forensischen Psychiatrie die theoretischen Grundlagen von FOTRES, insbesondere die Eigenschaften, die zur Risikobeurteilung verwendet werden. Diese Eigenschaften müssten mit Ergebnissen aus der psychologischen Forschung in Einklang gebracht werden, etwa indem internationale Standards für psychische Krankheiten berücksichtigt werden. Dies scheint aber nicht der Fall zu sein.

Fünftens ist FOTRES ein privater (proprietärer) Algorithmus. Die Rechte an FOTRES gehören einer privaten Firma. Institutionen, die FOTRES anwenden wollen, müssen eine Lizenz erwerben. FOTRES ist zwar in einem Handbuch beschrieben und für Benutzer*innen über eine Homepage zugänglich. Davon ist jedoch der Algorithmus selbst ausgenommen, es fehlt etwas wie die Publikation des Quellcodes. Dies ist aus zwei Gründen problematisch. Zum einen würde ein einfach zugänglicher Algorithmus (zusammen mit verarbeiteten Daten) dessen unabhängige Erforschung durch Dritte ermöglichen, die daran kein kommerzielles Interesse haben. Wenn ein Algorithmus nicht zugänglich ist, können bestimmte Eigenschaften nur schwer oder gar nicht untersucht werden. Zum anderen wäre ein einfacher Zugang auch wichtig für die Menschen, die durch FOTRES beurteilt werden. Diese sollten den Vorhersageprozess nachvollziehen und sich dagegen zur Wehr setzen, also rekurrieren können (möglicherweise unterstützt durch Expert*innen). Dies ist nicht möglich, wenn ein Algorithmus nicht öffentlich zugänglich ist.

Die genannten Probleme sind seit Längerem bekannt. Wenn wir FOTRES mit einer existierenden Alternative wie zum Beispiel COMPAS vergleichen, zeigt sich, dass die Verwendung von FOTRES nicht ausreichend diskutiert und erforscht wird: Das Diskriminierungspotenzial von COMPAS ist besser erforscht, es gibt unabhängige Untersuchungen zur Vorhersagequalität und auch die Weiterentwicklungen werden von den Entwickler*innen regelmässig getestet. Gemein haben die beiden Tools allerdings, dass sie proprietär sind und beide stark dafür kritisiert werden, welche Faktoren (d.h. Eigenschaften der beurteilten Menschen) sie für die Berechnung des Rückfallrisikos verwenden. Sowohl bei FOTRES als auch bei COMPAS ist die Vorhersagequalität eher durchschnittlich als gut. COMPAS wird im Gegensatz zu FOTRES allerdings breit diskutiert. Im Vergleich dazu ist die Debatte in der Schweiz sehr leise – und eine öffentliche Kritik zu FOTRES quasi inexistent.

FOTRES muss stärker wissenschaftlich überprüft und untersucht werden. Es wäre nicht damit getan, die Abschaffung von FOTRES zu fordern, oder gleich die Abschaffung jeglicher Algorithmen zur Risikobeurteilung. Forschung hat nämlich gezeigt, dass auch die Risikobeurteilung durch Expert*innen gravierende Schwächen hat – deren Vorhersagen sind oft nahe am Zufallsniveau, also etwa gleich gut wie ein Münzwurf. Es gibt einige interessante Vorschläge, wie sich Algorithmen für die Risikobeurteilung einfach und transparent ausgestalten liessen, aber es ist unklar, wie gut diese Vorschläge in der Praxis funktionieren würden.

Ob Algorithmen oder automatisierte Entscheidungsprozesse «richtig» eingesetzt werden, kann nicht beantwortet werden, ohne den Anwendungskontext zu berücksichtigen. Darüber hinaus stellen sich weitere grundsätzliche Fragen: Haben wir die richtigen Daten, um festzustellen, wer gefährlich ist und wer nicht? Ist es überhaupt möglich, das mit einer Prognose festzustellen und so zukünftige Verbrechen vorherzusagen? Was heisst gefährlich? Tools wie FOTRES geben ausserdem keine Auskunft darüber, wie wir mit Risiken umgehen sollten: Mit welchen Massnahmen reduzieren wir das Risiko? Wie wollen wir Menschen beurteilen und bestrafen? Erreichen wir mit unserem gegenwärtigen Justizsystem das, was wir erreichen wollen? Welche Individuen und Gruppen wollen wir wie behandeln? Wer muss speziell geschützt werden? Wem tun wir recht, wem unrecht? Wir müssen solche Fragen beantworten können, wenn wir entscheiden wollen, ob FOTRES und ähnliche Instrumente geeignet sind, die gesellschaftliche Aufgabe zu erfüllen, die wir ihnen zuweisen. Eine bessere wissenschaftliche Erforschung solcher Algorithmen ist also unabdingbar, aber nicht ausreichend.

Der Autor dankt Corinna Hertweck für ausführliche Kommentare zu einer früheren Fassung des Beitrags sowie Waldemar Kesler und Angela Müller für Kommentare und Korrekturen.

AlgorithmNews CH - abonniere jetzt unseren Newsletter!