Maschinensturm KI (5): Schweigerecht für Bots

Nr. 11 –

Wer Chat GPT und Co. eine Frage stellt, wird mitunter in Geplapper ertränkt. Das kann schwerwiegende Folgen haben.

Diesen Artikel hören (8:36)
-15
+15
-15
/
+15
ein schweigsames Paar sitzt auf einer Bank
Mach das mal nach, Maschine! Wer ein gutes Gespräch führen können will, muss auch schweigen lernen. Foto: Tom Huber, Connected Archives

KI-Systeme halten nie den Mund. Man könnte meinen, dass dieser Umstand sich nicht gross davon unterscheidet, dass Opa Hans oder die neue Nachbarin ebenfalls unaufhörlich redet. Bei Menschen lautet die medizinische Diagnose für unkontrollierbare Gesprächigkeit Logorrhö. Aber die Art und Weise, wie KI ihr Gegenüber in Geplapper ertränkt, ist von besonderer Art: Sie wurde eingebaut. Und sie hat gravierende Konsequenzen.

Ein Sprachmodell ist ein Algorithmus für maschinelles Lernen, der eine Eingabe aufnimmt und dann seinen Output ausspuckt. Auf eine Reihung von Buchstaben folgt eine andere, die sich als wahrscheinliche Fortsetzung auffassen lässt. Bei Chatbots wird die Eingabe meist «Prompt» genannt. Der Output sieht aus, als antworte der Algorithmus dem Menschen. Tatsächlich setzt das Gerät aber einfach die Buchstabenreihe des Prompts fort. Es hat keine Vorstellung davon, ein «Gespräch» zu führen, und unterscheidet nicht zwischen «dir» und «mir». Es erfüllt einfach seine Aufgabe: eine Eingabe zerkauen und so vervollständigen, dass es nach einem Dialog aussieht. Es kann nicht anders, als weiterzumachen.

Was, wenn nichts passierte?

Techunternehmen sind darauf bedacht, den Eindruck zu erwecken, dass ihre Modelle menschliche Intelligenz simulieren könnten. Keine Woche vergeht ohne Verkündung neuer Errungenschaften, sei es die Formulierung von Überredungskünsten, die den Partner zum Abwaschen bewegen, oder die Ermöglichung wissenschaftlicher Durchbrüche. Doch eine menschliche Fähigkeit, die bislang nicht mal ansatzweise imitiert wurde, ist das Schweigen. Man stelle sich vor: Der Prompt ist eingetippt, man klickt Enter – und nichts passiert. Gar nichts, nicht einmal eine umständliche Entschuldigung, der Anfrage nicht nachkommen zu können, oder ein schmeichlerisches Lob der angeblich schlauen Frage. Stille.

Aus geschäftlicher Sicht wäre dieses Verhalten unvorteilhaft. Der Zweck eines Sprachmodells besteht schliesslich darin, einen Output zu generieren, so wie der Zweck eines Autos ist, uns von A nach B zu transportieren. Klar, man kann ein Sprachmodell hacken, sodass es zu sprechen aufhört, genauso wie man ein Auto lahmlegen kann, indem man die Reifen zersticht. Aber dann erfüllt die Maschine eben ihren Zweck nicht mehr. Im menschlichen Verhalten ist es vollkommen anders. Stillschweigen kann gezielt eingesetzt werden und vielerlei Bedeutung haben: von «Das glaube ich nicht» zu «Ich habe Angst, zu sprechen» bis «Ich liebe dich».

Der Sprachzwang der KI verheisst nichts Gutes. Open AI, die Firma hinter Chat GPT, gestand die Schieflage vergangenen Sommer selbst indirekt ein. Sprachmodelle, hiess es, seien darauf ausgerichtet, bei einer bestimmten Reihe von Tests gut abzuschneiden. Und Raten sei nun mal die beste Strategie, Testergebnisse zu verbessern, wenn das Modell unsicher sei. Mit anderen Worten: Der Algorithmus ist darauf ausgelegt, immer zu antworten, egal wie sicher er sich seiner Antwort ist und egal ob diese nützlich ist oder Schaden anrichten könnte. Fürs freie Erfinden werden Punkte verteilt.

Dieses Problem betrifft nicht nur Sprachmodelle, sondern sämtliche Systeme maschinellen Lernens. Regierungsbehörden nutzen zunehmend KI, um Prognosen zu erstellen, die direkte Auswirkungen auf die Leben von Menschen haben. Oft wäre es für alle Beteiligten viel besser, wenn das System stumm bliebe. Als Warnsignal kann der Skandal gelten, in den die niederländische Regierung durch ihre Verwendung eines Vorhersagealgorithmus für Kindergeldbetrug geriet. 2019 stellte sich heraus, dass 26 000 Menschen fälschlicherweise angezeigt und zu enormen «Rückzahlungen» verpflichtet worden waren. Es hatte sieben Jahre gedauert, den Fehler aufzudecken – eine Zeitspanne, in der unter dem Druck der Anschuldigung Familien zerbrachen, Menschen psychische Probleme entwickelten und es sogar zu Suiziden kam.

Die Tendenz der KI, zu viel zu sagen, korreliert mit der Wortkargheit menschlicher Behörden. 2022 stellte das deutsche Nachrichtenportal netzpolitik.org eine Anfrage an das Bundesamt für Migration und Flüchtlinge (Bamf): Es ging um die Treffsicherheit von dessen Dialektidentifizierungsassistenten. Dieses System maschinellen Lernens ist dafür konzipiert, die Muttersprache einer Person auf Basis kurzer Audioaufnahmen zu identifizieren. Das Bamf antwortete, dass das System zu achtzig Prozent zutreffende Antworten ergebe. Diese Zahl verdeckt womöglich einen Teil der Geschichte.

Führen wir uns einen hypothetischen Fall vor Augen, bei dem 100 Geflüchtete an der Grenze aufgenommen werden. 89 sprechen syrisches Arabisch, 11 die kurdische Sprache Kurmandschi. Wenn das System 79 der syrisches Arabisch Sprechenden und eine:n Kurd:in korrekt erkennt, kommen wir auf eine Trefferquote von achtzig Prozent. Dabei würden aber über neunzig Prozent der kurdischen Daten falsch zugeordnet, was bedeutete, dass diese Gruppe in hohem Mass von der Software diskriminiert würde. Ohne solche detaillierteren Auswertungen lässt sich die Angemessenheit einer Software für ihren Einsatz schlicht nicht absehen. Als aber netzpolitik.org nach Fehlerraten für einzelne Dialekte und Sprachen fragte, behauptete das Bundesamt, diese lägen nicht vor. Das lässt die Möglichkeit offen, dass das Instrument für manche Sprachen relativ gut funktioniert und für Minderheitensprachen überhaupt nicht. Die Asylagentur der Europäischen Union erwägt derweil dennoch, das Instrument bald EU-weit einzusetzen.

Ungelegene Wahrheit

Technisch wäre es leicht möglich, der KI ein Schweigerecht zu verleihen. Ein Algorithmus für maschinelles Lernen hat normalerweise die Möglichkeit, anzuzeigen, wie «sicher» er sich seiner Antwort ist. Dieser Gewissheitsgrad ist eine Zahl, und es wäre im Prinzip einfach, Maschinen so einzurichten, dass sie still bleiben, wann immer ihre Gewissheit zu gering ist. Dies würde jedoch voraussetzen, dass sich auch Anwender:innen das Problem bewusst machten und willens wären, ein System mit Schweigerecht zu kaufen.

Die derzeit herrschenden Erwartungen von Nutzer:innen müssten sich also ebenfalls ändern. In einer Studie von 2024 deckte die KI-Firma Cohere auf, dass Nutzer:innen gut formatierte und selbstbewusst formulierte Chatbot-Antworten gegenüber korrekten vorziehen. Wenn Sicherheitsvorkehrungen zwar von Anbietern ausgebaut, aber von Nutzer:innen ignoriert würden, wäre wenig gewonnen.

Letztlich geht es um eine Bildungsfrage. Während allerorts pädagogische KI-Strategien verabschiedet werden, beschränken sich diese oft auf viel zu begrenzte Fragen: «Wie können wir Unterrichtsmaterial generieren?» oder «Wie lassen sich die Quellen des KI-Outputs verifizieren?» Eigentlich sollte KI-Erziehung aber bei der Frage, die allem maschinellen Lernen zugrunde liegt, ansetzen: Woher wissen wir, dass es funktioniert? Basiswissen über Evaluationsverfahren ist im Grunde sehr einfach und erfordert keine tiefere Expertise. Aber es fehlt vollkommen im KI-Diskurs.

Warum herrscht also Stille über die Option der künstlichen Stille? Vielleicht, um einer ungelegenen Wahrheit auszuweichen. Der Grenzbeamte, der das Schweigen seines zur Identifikation biometrischer Daten oder von Dialekten eingesetzten Systems erlebt, könnte schnell merken, dass das Gerät ihm die Arbeit nicht abnimmt. Regierungen sollten in die Pflicht genommen werden, über die Präzision der von ihnen eingesetzten maschinellen Lernalgorithmen Rechenschaft abzulegen. Auf Basis dieser Information wäre es dann demokratische Bürger:innenpflicht, zu entscheiden, ob wir unsere Verfahren diesem oder jenem Softwareorakel anvertrauen wollen. Aber um an diesen Punkt zu kommen, müsste zunächst Ungewissheit als fundamentale Eigenschaft von KI-Systemen anerkannt werden.

Das Schweigen der Maschinen könnte vielsagend sein.