Neue Recherche
FOTRES: Simple Mathematik mit komplizierten Folgen
Ein einfacher Algorithmus zur Ermittlung der Rückfallwahrscheinlichkeit von Straftäter*innen mutiert zu einem eigenen Diagnosesystem. Die Fachwelt hält seinen Einsatz für ethisch fragwürdig.
Seit 20 Jahren beurteilt die Schweizer Strafjustiz mithilfe eines Algorithmus, wie gefährlich ein Mensch ist. Anfang der 2000er Jahre entwickelte Frank Urbaniok, der damalige Chefarzt des Psychiatrisch-Psychologischen Dienstes des Zürcher Justizvollzugs, das «Forensisches Operationalisiertes Therapie-Risiko-Evaluations-System» (kurz: FOTRES). Der Algorithmus berechnet das Rückfallrisiko von Schwerstverbrecher*innen, besonders Sexual- und Gewaltstraftäter*innen. Das System wird von Urbanioks Firma Profecta AG kommerziell vertrieben und weiterentwickelt. FOTRES ist einer der ersten in der Schweiz angewendeten Algorithmen dieser Art, und einer der wenigen «made in Switzerland». Immer wieder steht FOTRES in der Kritik. Jüngst kam der Berner Philosoph Tim Räz in einer Studie zum Schluss, FOTRES erfülle die gängigen wissenschaftlichen Standards nur ungenügend, wie er in einem Gastbeitrag für AlgorithmWatch CH erklärt.
Kritische Stimmen argumentieren, dass FOTRES eine «Blackbox» sei, also niemand wisse, wie der Algorithmus funktioniert. Ebenso wenig sei bekannt, wer genau FOTRES einsetzt. Das WAV Recherchekollektiv ging im Auftrag von AlgorithmWatch CH dieser Frage nach. Die Recherche zeigt: Die Mathematik hinter FOTRES ist verständlich, aber dennoch nicht nachvollziehbar. Gespräche mit Expert*innen bestätigen, dass der Algorithmus trotzdem eingesetzt wird, bei der Polizeiarbeit oder auch zur Therapie in Gefängnissen – in so gut wie allen Deutschschweizer Kantonen. Eine Umfrage unter diversen Institutionen ergab, dass es nur einen kleinen Kreis von Anwender*innen gibt. Insbesondere die angefragten universitären Kliniken lehnen FOTRES meist ganz ab und kritisieren dessen Gebrauch pauschal.
Im Innern der Blackbox
FOTRES hilft Gutachter*innen einzuschätzen, ob ein*e Täter*in ein Delikt nochmals begehen wird. Staatsanwaltschaften und Gerichte geben solche «Gefährlichkeitsgutachten» oder «Risikobeurteilungen» in Auftrag. Bei einem hohen Rückfallrisiko droht eine gerichtlich angeordnete Massnahme, im schlimmsten Fall die Verwahrung.
Jérôme Endrass ist Professor und Leiter der Arbeitsgruppe Forensische Psychologie an der Universität Konstanz. Er ist ein intimer Kenner von FOTRES und hat dessen Entwicklung seit Anfang an begleitet, früher als Abteilungsleiter unter Frank Urbaniok, heute als stellvertretender Amtsleiter im Justizvollzug des Kantons Zürich.
Mit der Kritik, FOTRES sei eine Blackbox, kann Endrass nichts anfangen: «Das, was im Hintergrund abläuft, ist wirklich banal und für alle einsehbar.» Es sei ein altes Gerücht, dass der Algorithmus nicht nachvollziehbar sei. Zur Überprüfung stellt Urbanioks Profecta AG einen Testzugang zur Verfügung. Der generell nicht ganz klar formulierte Nutzungsvertrag von FOTRES verhindert aber eine detaillierte Beschreibung. Der Algorithmus ist also nur auf Nachfrage, oder, worauf auch Endrass hinweist, im 654-seitigen Handbuch einsehbar.
Bei seiner Recherche sprach das WAV Recherchekollektiv mit über einem Dutzend Gutachter*innen, Befürworter*innen und Gegner*innen von FOTRES. Grundsätzlich berechnet FOTRES, ob das Rückfallrisiko bei einer Person höher oder geringer ist als das durchschnittliche Rückfallrisiko bei einer bestimmten Straftat. Um diese «Berechnung» durchzuführen, stellt FOTRES ein Instrumentarium bereit, mit dem Persönlichkeitsmerkmale von Täter*innen identifiziert werden sollen, die das Rückfallrisiko wesentlich beeinflussen. Die Gutachter*innen wählen aus über hundert möglichen «Risikoeigenschaften» diejenigen drei bis fünf aus, die mutmasslich zur Straftat geführt haben. Jede Eigenschaft hat mehrere Merkmale. Jedes wird, je nach Ausprägung, von 0 bis 4 bewertet. In einem dem WAV zugespielten Gutachten hatte zum Beispiel die Gutachterin «Dominanzproblematik» als eine der Persönlichkeitseigenschaften ausgewählt. Diese Eigenschaft beinhaltet die Merkmale «Kontrollbedürfnis», «Dominanzstreben» und «Ignorieren der Bedürfnisse anderer». Zusätzlich bewerten die Gutachter*innen noch weitere Kontextaspekte zur Tat, etwa deren «technische Reproduzierbarkeit». Aus der Gesamtheit aller Bewertungen berechnet das Programm zum Schluss ein Rückfallrisiko von 0 (sehr gering) bis 4 (sehr hoch).
Doch wie kommt dieses Resultat rechnerisch zustande? Ein Blick in den FOTRES-Algorithmus bestätigt Jérôme Endrass’ Aussage: Es handelt sich um einfache Mathematik. Die gut 80 zwischen 0 und 4 bewerteten Kategorien werden jeweils gruppiert, zusammengezählt und wiederum in Kategorien von 0 bis 4 eingeteilt – bis der Rückfallrisiko-Wert ermittelt ist. Dieser Vorgang ist soweit nachvollziehbar. Doch die einzelnen Kategorien werden stark gewichtet: Gewisse Kategorien zählen doppelt, einige negativ und andere gar nicht. Begründungen für diese Gewichtungen fehlen vollständig im Onlineprogramm und in den eingesehenen FOTRES-Bewertungen. FOTRES ist also zwar kein komplizierter Algorithmus, nachvollziehbar für alle ist er deswegen aber keineswegs.
Von der Prognose zur Diagnose
Auf diese Kritik angesprochen erwidert Astrid Rossegger, dass nicht das Resultat die eigentliche Stärke von FOTRES sei. Viel wichtiger seien die «Risikoeigenschaften». Astrid Rossegger ist eine der erfahrensten FOTRES-Gutachterinnen der Schweiz, sie ist Co-Leiterin der Arbeitsgruppe Forensische Psychologie an der Universität Konstanz und stellvertretende Leiterin Forschung & Entwicklung beim Justizvollzug des Kantons Zürich. Sie erklärt: «In meiner Forschungskarriere habe ich sehr viele Gutachten gelesen und hatte immer wieder die Schwierigkeit, die Kernaussage zu verstehen. Angenommen, jemand neigt dazu, in Konflikten mit einem Tunnelblick zu reagieren, und ist zudem cholerisch: Wie können Sie das so beschreiben, dass alle unter diesen beiden Merkmalen das Gleiche verstehen?»
Rossegger bringt auf den Punkt, was etliche der interviewten Gutachter*innen erwähnt haben: Die Stärke von FOTRES liege nicht in der genauen Prognose, sondern in der gemeinsamen Sprache über die Fachgrenzen hinaus. Rossegger führt aus: «Bei FOTRES kann ich aus über 100 vordefinierten Risikomerkmalen auswählen, was vorliegt und was nicht. Und dann weiss jeder, was ich meine.» Im Gespräch erwähnte eine Gutachterin zum Beispiel, dass sie FOTRES verwende, um beim Bedrohungsmanagement einer Kantonspolizei die Polizist*innen an der Front bei schwierigen Fällen zu beraten.
Mit anderen Worten: FOTRES dient in der Praxis oft zur Diagnose statt zur Prognose. Das hat auch der FOTRES-Kundendienst bestätigt. FOTRES sei heute vor allem ein spezialisiertes forensisches Diagnosesystem, das – im Gegensatz zu allgemeinpsychiatrischen Klassifikationssystemen – Risikoprofile von Straftäter*innen identifizieren kann. Die herkömmlichen (medizinischen) Diagnosesysteme seien dafür schlichtweg ungeeignet, und diese forensische Diagnose sei genau die Stärke von FOTRES, schrieb der Kundendienst dem WAV Recherchekollektiv.
Diese Entwicklung hin zum «spezialisierten forensischen Diagnosesystem» und damit weg von Risikoprognosen wurde nicht immer explizit hervorgehoben, wie ein Blick in alte Versionen der FOTRES-Website offenbart. 2010 schrieben die Entwickler*innen noch, FOTRES eigne sich auch «als Grundlage» für Risikobeurteilungen. In der aktuellen Version wird FOTRES nur noch «als Qualitätsmanagement-Instrument» für Risikobeurteilungen beschrieben, das eine «Vergleichbarkeit von Risikobeurteilungen» ermögliche. Dementsprechend sprach einer der Interviewten von einer «FOTRES-Sprache».
Dieser Shift zeigt sich auch im FOTRES-Programm. Kürzlich sei der «FOTRES-Diagnostik-Track» hinzugefügt worden, so der Kundendienst. Er biete Teams und Institutionen die Möglichkeit, «dass jeder jederzeit auf das Risikoprofil eines Straftäters zugreifen kann, um zu gewährleisten, dass alle die gleiche Sprache sprechen und in der gleichen Richtung arbeiten.»
In der Fachwelt stösst dieses «spezialisierte forensische Diagnosesystem» auf vehemente Kritik. FOTRES ersetze die wissenschaftlich etablierten diagnostischen Standards durch eigene Begrifflichkeiten, kritisierten namhafte Psychiater 2020 in einem Beitrag in einer Fachzeitschrift.
Elmar Habermeyer ist einer der Autoren dieses Beitrags. Der Direktor der Klinik für Forensische Psychiatrie an der Psychiatrischen Universitätsklinik Zürich unterstreicht im Gespräch mit dem WAV Recherchekollektiv seine Kritik an FOTRES als «Diagnosesystem». Es führe zu einem «diagnostischen Paralleluniversum» neben etablierten psychiatrischen Diagnosesystemen wie der ICD-10/11 der Weltgesundheitsorganisation. Habermeyer und seine Koautoren legen in ihrem Fachbeitrag dar, dass forensisch-psychiatrische Gutachten einen grossen Einfluss auf therapeutische Massnahmen haben und einer «der sensibelsten Bereiche der psychiatrisch-psychotherapeutischen Arbeit» seien. Gerade hier auf «allgemein anerkannte, diagnostische Vorgaben» zu verzichten, so die Autoren, sei problematisch, sogar «ethisch fragwürdig». FOTRES sei nämlich empirisch zu wenig belegt.
Beschränkte Anwendung
In der Praxis findet FOTRES trotzdem Anwendung. Die Profecta AG antwortete auf Anfrage, in den vergangenen fünf Jahren seien viele Tausend Bewertungen mittels FOTRES durchgeführt worden. Allein 2023 seien es bereits rund 850 Bewertungen. Seit vielen Jahren gäbe es «praktisch keine Kündigungen von Lizenzen»: «Personen, die anfangen, mit FOTRES zu arbeiten, bleiben praktisch alle dabei.»
FOTRES hat zwei Kernanwendungsgebiete: in gerichtlich angeordneten Gefährlichkeitsprognosen vor dem Urteil in Strafverfahren und als Risikobeurteilung während des Straf- und Massnahmenvollzugs. Das WAV hat knapp vierzig Gutachter*innen angeschrieben, die in diesen beiden Bereichen arbeiten. Von ihnen antworteten nur sechs Personen, dass sie FOTRES einsetzen. Dreimal so viele wenden FOTRES nicht an. Aus den 29 Antworten der angeschriebenen universitären Klinken, forensisch-psychiatrischen Abteilungen, Massnahmezentren und Justizvollzugsämter ging zudem hervor, dass kaum eine Handvoll eine eigene FOTRES-Lizenz besitzt. Vereinzelt stellen die Institutionen ihren Angestellten frei, Privatlizenzen zu benutzen. Im Gespräch und auf Nachfrage kam etliche Male die gleiche Rückmeldung: Der schweizweite Gebrauch beschränke sich auf Menschen rund um den FOTRES-Entwickler Frank Urbaniok und die beiden Abteilungen für forensisch-psychologische Abklärungen in Zürich und Bern, insbesondere im Zusammenhang mit dem «Risikoorientierten Strafvollzug (ROS)» des Ostschweizer und des Nordwest- und Innerschweizer Strafvollzugskonkordats. Diese Abteilungen lernen alle Gefangenen kennen, denen bei einer Erst-Triage ein erhöhter Abklärungsbedarf zugeschrieben wurde. Im ROS der beiden Deutschschweizer Strafvollzugskonkordate werden alle Insassen triagiert. Auffallend ist zudem die Rückmeldung der forensischen Kliniken: Die Kritik von Elmar Habermeyer und seinen Koautoren bestätigend, lehnen sie den Gebrauch von FOTRES grossmehrheitlich ab.
Fest steht: FOTRES bleibt eine Blackbox, da besonders für die Begutachteten nicht nachvollziehbar ist, wieso gewisse Faktoren stärker gewichtet werden als andere. Dennoch hat FOTRES im Verlauf der letzten knapp 20 Jahre einen Kreis von Befürworter*innen gefunden. Sie schätzen das System aber nicht für die Genauigkeit seiner Voraussagen, sondern weil sie dadurch weit über die Fachgrenzen hinaus forensische Diagnosen stellen und erklären können. Doch genau dieser Aspekt stösst bei den forensisch-psychiatrischen Kliniken und in der Fachwelt auf Fundamentalkritik. Der Fall FOTRES zeigt: Auch simple Mathematik kann in der Praxis zu einem eigenen Diagnosesystem heranwachsen – und Algorithmen müssen auch in den Zeiten von ChatGPT nicht komplex sein, um die Leben von Menschen zu beeinflussen.
Dieser Artikel wurde recherchiert und verfasst von Nada Sayed und Balz Oertli vom WAV Recherchekollektiv im Auftrag von AlgorithmWatch CH.