Erklärbare künstliche Intelligenz: «Chat GPT hat keine Ahnung von Logik»

Nr. 17 –

Die ETH-Informatikerin Menna El-Assady leuchtet mit der Taschenlampe in die Blackbox von generativer KI: Wie gelangt ein Modell zu Entscheidungen? Und wie können wir diese korrigieren?

WOZ: Menna El-Assady, was macht eine sogenannt generative KI wie Chat GPT zur Blackbox?

Menna El-Assady: Was Large Language Models wie Chat GPT grundsätzlich zur Blackbox macht, ist, dass wir nicht nachvollziehen können, wie die Antwort auf die Frage, die wir gestellt haben, zustande gekommen ist. Das gilt selbst dann, wenn die Sprach-KI Open Source ist, wir also wissen, mit welchen Daten sie trainiert wurde und wie der Algorithmus funktioniert. Denn ihr Entscheidungsprozess ist nichtlinear und hochkomplex. Grundsätzlich kann man in die Blackbox immer reinschauen, man kann sogar den Weg beschreiben, der bei der Entscheidungsfindung genommen wurde. Aber die Frage ist, was man in all der Komplexität überhaupt verstehen kann. Denn mit der Art und Weise, wie Menschen Entscheidungen treffen, hat das nichts zu tun. Das Modell hat zum Beispiel keine Ahnung von Logik. Egal ob ich danach frage, wo Bern liegt oder wo Bern nicht liegt: Die Antwort lautet immer: «In der Schweiz.»

Portraitfoto von Menna El-Assady
Menna El-Assady, Informatikerin

Und doch interagieren die meisten mit Chat GPT wie mit einer natürlichen Person. Normalerweise befällt uns ein unbehagliches Gefühl, wenn KI Menschen zu ähnlich wird, das sogenannte Uncanny-Valley-Syndrom. Warum ist das bei Chat GPT nicht der Fall?

Ich glaube, das liegt daran, dass wir sehr viel Erfahrung mit chatbasierter Interaktion haben. Wir schreiben einander ständig über verschiedene Kanäle. Und mit Chat GPT kann man das ebenso einfach und unkompliziert tun. Aber natürlich verbirgt sich dahinter ein Rationalisierungsproblem: Ich stelle mir vor, dass ich mit einer natürlichen Person rede, und gehe deshalb davon aus, dass diese Person ihre Worte bewusst wählt und genau weiss, was sie sagt. Die Antworten kommen zum Teil ja auch sehr autoritär daher, das ist ein ziemliches Problem. Wir konnten in Experimenten, bei denen es um Vertrauen ging, zeigen, wie einfach sich Menschen von einer Sprach-KI hinters Licht führen lassen.

Die KI hinter Chat GPT

Im Unterschied zu diskriminativer künstlicher Intelligenz (KI), die zur Klassifikation von Datensätzen eingesetzt wird, kann generative KI auf der Basis solcher Datensätze neue Inhalte kreieren. Eigentlich handelt es sich dabei um ein Large Language Model (LLM), das mithilfe von künstlichen neuronalen Netzwerken und Deep Learning natürliche Sprache verarbeiten kann. Dabei verknüpft der Algorithmus das auf der Basis vorhandener Informationen Erlernte immer wieder mit neuen Inhalten, um daraus Prognosen oder Entscheidungen zu treffen, die ihrerseits bestätigt oder in einem neuen Anlauf geändert werden. All dies geschieht ohne menschliches Eingreifen. Erst mittels Finetuning wird von aussen versucht, die Antworten respektive Resultate zu verbessern oder auf spezifisch gewünschte Inhalte masszuschneidern, indem mit neuen Datensätzen trainiert und die Gewichtungen von Entscheidungen verändert werden.

Sie forschen zu Explainable Artificial Intelligence, kurz XAI, also erklärbarer KI: Worum geht es da genau?

Im Prinzip versuchen wir, nachvollziehbar zu machen, wie generative KI-Modelle zu Entscheidungen kommen. Worauf schaut das Modell, wenn es einen Text sieht? Welche Stelle führt dazu, dass es eine Entscheidung trifft? Solche Stellen kann man flippen, also mit etwas anderem ersetzen – das Wort «Hund» mit «Katze» zum Beispiel –, und dann schauen, was passiert. Ändert sich die Entscheidung, wissen wir, dass die Stelle relevant war. Aber das heisst noch lange nicht, dass es die einzige Stelle ist, von der die Entscheidung abhängt. Womöglich gibt es noch zahlreiche weitere Stellen, auf die das Modell ebenso schaut und die seine Entscheidung beeinflussen. Pro Entscheidung muss man unter Umständen also sehr, sehr viele Stellen flippen, bevor man zu einer Art mentalem Modell gelangt, einem Erklärbarkeitsalgorithmus, der zu systematisieren versucht, worauf das KI-Modell achtet.

Und worum geht es dabei letztlich: um eine Verifizierung der Antworten? Um sichere KI oder darum, die Kontrolle zu behalten?

Hauptsächlich geht es darum, wirklich zu verstehen, was diese Modelle machen. Und ihre Entscheidungen zu korrigieren, wenn sie falsch sind. Wir sprechen auch von Human Alignment: Es geht darum, dem Modell beizubringen, was ich als Mensch entscheiden würde.

Können Sie das an einem Beispiel erklären?

Nehmen wir einen Algorithmus, der mit medizinischen Bilddatensätzen darauf trainiert wurde, Melanome zu erkennen und von gutartigen Hautveränderungen zu unterscheiden. Er lieferte sehr gute Ergebnisse. Und dann überprüfte man mit XAI-Methoden, worauf er achtet, um zu entscheiden – und fand heraus: Es war ein Punkt, entweder rot oder blau, mit dem die Trainingsdaten markiert worden waren. Der Algorithmus hatte sich also eine Abkürzung gesucht und gelernt, rote von blauen Punkten zu unterscheiden. Was natürlich rein gar nichts mit der eigentlich gewünschten Entscheidungsfindung zu tun hat.

Und wie lässt sich so etwas korrigieren?

Wir müssen dem Algorithmus Feedback geben, indem wir ihm all jene Stellen zeigen, die er fälschlicherweise als entscheidungsrelevant betrachtet hat. Das tun wir, indem wir Expert:innen, in diesem Fall Ärzt:innen, fragen, wie sie Entscheidungen treffen, worauf sie dabei besonders achten. Wir zeigen ihnen all die Stellen, die das KI-Modell als relevant betrachtet hat, und sie können dann jene Stellen markieren, die für sie nicht wichtig sind. Wir basteln daraus ein Onlinetool, mit dem sie Schritt für Schritt nachvollziehen können, wie der Algorithmus zu seinen Entscheiden gekommen ist.

Von Chat GPT ist bekannt, dass die Sprach-KI immer wieder halluziniert, also Antworten erfindet. Gibt es Ansätze, wie dies verhindert werden könnte?

Wir publizieren dieser Tage einen Ansatz, mit dem man zumindest prüfen kann, wie widerspruchsfrei ein Modell in sich funktioniert. Anstatt ihm eine Anfrage zu schicken, senden wir ihm dieselbe Frage Hunderte von Malen mit kleinen Änderungen. Im Nachhinein können wir dann die Stellen herausfiltern, wo das Modell immer konsistent war, und andere identifizieren, wo es komplett unterschiedliche Sachen produziert hat. Im Prinzip nehmen wir die einzelnen Claims auseinander und schauen, ob sie in der gleichen Logik existieren oder nicht.

Claims sind Antworten?

Claims sind Behauptungen. Wenn das Modell zu einer angefragten Person zum Beispiel einmal antwortet, sie sei Fussballspielerin, und ein andermal, sie singe, dann sind das zwei Fakten, die in der gleichen Welt existieren können. Sie widersprechen sich nicht. Aber wenn die Person in der einen Antwort 1987 geboren ist und in einer anderen 1976, dann ist das logisch inkonsistent.

Chat GPT halluziniert nicht nur, es lässt sich auch ziemlich einfach auf persönliche Bedürfnisse zuschneidern – oder, negativ formuliert, manipulieren. Millionen von Menschen spielen damit herum.

Momentan herrscht Eldoradostimmung, Chat GPT ist eine grosse Verheissung. Wir werden sehen, wohin sich das entwickelt. Erst kürzlich hat eine Firma ein Chatboard für den Customer Service online gestellt, in dem die Sprach-KI den Kund:innen plötzlich Gutschriften versprochen hat, die die Firma hat zahlen müssen. Aber ich sehe jeden Tag auch Experimente, die richtig cool sind.

Experimentieren Sie selbst mit Chat GPT?

Ich erforsche solche Large Language Models zwar, aber im Arbeitsalltag nutze ich Chat GPT im Allgemeinen nie. Als Wissenschaftlerin arbeite ich in so vielen verschiedenen Kontexten, dass es mir viel zu gefährlich wäre, aus Versehen Texte zu produzieren, deren Inhalte fehlerhaft oder missverständlich sind.

Wo sehen Sie aus der Perspektive Ihrer Forschung den dringendsten Handlungsbedarf?

Wir müssen den Leuten zumindest ein Grundverständnis davon vermitteln, was es bedeutet, mit so einem Sprachmodell zu interagieren. Für die einen ist es eine Magic Box, die alles kann, andere sind sehr skeptisch. Ich glaube, die Wahrheit liegt irgendwo dazwischen und differenziert in jedem Fall woanders. Es braucht meiner Meinung nach so etwas wie einen Führerschein für generative KI. Ein Auto ist auch gefährlich, man kann mit ihm viel Schlimmes anstellen. Aber wir haben einen gesellschaftlichen Kodex, wir haben Regeln gelernt, wie wir sicher von A nach B fahren, normalerweise ohne dass etwas passiert und andere verletzt werden.

Müssen wir jetzt alle programmieren lernen?

Nein. Bildung heisst, dass wir Informatiker:innen die Dinge so zu erklären lernen, dass Menschen sicher mit einer Sprach-KI interagieren können und dabei wissen, was sie tun. Das ist zumindest mein persönlicher Anspruch.

Und wie genau stellen Sie das an?

Meine Forschungsgruppe heisst Interactive Visualization and Intelligence Augmentation, es geht also darum, gewisse Dinge zu visualisieren, optisch hervorzuheben – die Leute darauf aufmerksam zu machen, an welchen Textstellen das Modell zum Beispiel nur bedingt glaubwürdig ist, weil die Datenlage dünn ist. Wir entwickeln Education-Tools, eine Art Onlinewerkzeuge. Zum Beispiel einen interaktiven Artikel, wo man durchscrollen und ein Verständnis dafür entwickeln kann, was es heisst, wenn ein Modell lernt, eine Biene von einem Vogel oder einem Auto zu unterscheiden. Was eine Schicht von Neuronen in einem Netzwerk ist. Was Nachbarschaft bedeutet. Man wird da Schritt für Schritt durchgeführt und lernt verstehen, was im Hintergrund passiert – ganz ohne komplexe mathematische Formeln.

Lässt sich mit Augmentation auch Voreingenommenheit im Sinne negativer Diskriminierungen detektieren und verhindern?

Wir haben ein Demotool online, mit dem man nach männlichen und weiblichen Stereotypen suchen kann, die ein Modell gelernt hat. Da können wir mit verschiedenen Parametern herumspielen und schauen, was sich ändert, oder Vergleiche anstellen. Zwischen Chat GPT und einem andern Sprachmodell etwa, das behauptet, es hätte den Genderbias reduziert. Solche Tools erstellen wir für Linguist:innen, damit sie reinschauen und Theorien testen können. Und natürlich können wir mit einem Finetuning an problematischen Stellen dann eingreifen und zu korrigieren versuchen. Aber sobald man eine Kombination von Bias hat, wenn es etwa um eine Schwarze Frau im Rollstuhl geht, dann wird es unglaublich schwer.

Menna El-Assady ist ETH-Assistenzprofessorin. Folgende (englischsprachige) Demotools geben Einblick in ihre Forschung: lm-bias.lingvis.io, demo.generaitor.ivia.ch.