Hacking Explainable AI: Wie KI-basierte Systeme diskriminierendes Verhalten hinter der richtigen Erklärung verstecken können

Katharina Zweig, Marc Hauer, Leon Sproten, Lea J Becker, tba, Jan Harbeke, Alexander Wilhelm, Natalia Syrnicka

Info
Location: Glashaus

Wie erkenne ich diskriminierende KI? Die Frage wirst Du Dir spätestens stellen, wenn es eine KI ist, die über Deinen Kredit entscheidet. Wir zeigen Dir anhand von Entscheidungsbäumen, dass die Antwort gar nicht so einfach ist. Du erfährst , wie Diskriminierung verschleiert werden kann, und kannst es direkt selbst versuchen!
Intervention
Deutsch
Off Stage

KI ist ein Thema, das unsere Gesellschaft in den letzten Jahren zunehmend beschäftigt. Mit dem Aufkommen von Blackbox-Modellen, wie komplexen neuronalen Netzwerken, wird ein Blick hinter die Kulissen nötig. Wie fällt das System seine Entscheidungen, sind sie gerecht und wie lassen sich die Ergebnisse interpretieren? Fragen wie diese gewinnen zunehmend an Relevanz.

Eine populäre Möglichkeit, Blackbox-Modelle erklärbar zu machen, sind Surrogat-Modelle. Die inneren Mechanismen von Surrogat-Modellen sind uns bekannt und einfach zu verstehen. Sie werden mit Daten trainiert, die von dem ursprünglichen Blackbox-Modell generiert wurden. Das so trainierte Surrogat-Modell zeigt uns dann, wie die Blackbox im Inneren funktioniert - so zumindest die Theorie.

In unserer Intervention laden wir dazu ein, diese Theorie am Beispiel von Entscheidungsbäumen als Surrogat-Modell zu hinterfragen. Wir tauchen mit euch dafür in ein fiktives Szenario eines Kreditvergabesystems ein, dass durch Entscheidungsbäume erklärbar gemacht werden soll. Um einen Vergleich zwischen Surrogat und dem System herstellen zu können, machen wir die Blackbox dafür für euch transparent. Statt einer KI wählen wir ein einfaches Set von Regeln, dass unser Kreditvergabeverfahren darstellen soll.

Dann geht es ans Ausprobieren.

Wir versuchen interaktiv von Entscheidungsbäumen auf das Regelset unserer "Blackbox" zu schließen und umgekehrt aus einem klug ausgewählten Trainingsset für unseren Entscheidungsbaum diese Regeln entweder zu verschleiern oder explizit darzustellen.

Unser Ziel ist es, im Anschluss mit euch in einen Dialog zu treten. Glaubt ihr, Entscheidungsbäume sind (trotz ihrer Schwächen) eine gute Lösung, Erklärbarkeit herzustellen? Sind sie überhaupt eine ausreichende Lösung? Könnt ihr euch andere Surrogat-Modelle vorstellen, die ähnliche Schwächen aufweisen können?