KI in der Musik: Ich hätte die Arbeit an diesem Text massiv abkürzen können, Chat GPT hätte mir eine solide Basis geboten. Aber wie viele Begegnungen mit Menschen, Texten und Realitäten wären ausgeblieben, wenn ich von Beginn an gewusst hätte, was ich suche?

Nr. 11 –

In wenigen Minuten einen Soundtrack für jede gewünschte Stimmung kreieren: Mit künstlicher Intelligenz ist das möglich. Aber fehlt da nicht etwas?

Gruppenbild: Holly Herndon lässt Sänger:innen eine künstliche Intelligenz mit Klangmaterial füttern
Archaisches Musikmachen für eine neue Technologie: Holly Herndon lässt Sänger:innen eine künstliche Intelligenz mit Klangmaterial füttern. Foto: Boris Camaca

Wir verlassen den Raum ohne nennenswertes Ergebnis. Es ist kurz nach 15 Uhr, wir drehten uns gerade vier Stunden um ein Gitarrenmuster, das wir zunehmend angestrengt zum Rückgrat eines Songs zu formen versuchten. Vergeblich. Wir gehen in die Küche, um etwas zu essen. Die Stimmung ist ratlos-entspannt. Vor dem Fenster fällt zwischenzeitlich Schnee. Jemand wärmt Risotto in einer Bratpfanne, jemand bringt den Müll raus. Zwei stehen am Fenster und beobachten die Katze, die sich nicht entscheiden kann, ob sie dem Schnee trauen soll oder nicht.

Ich bin mit meiner Band in einer mehrtägigen Residenz in einem dafür eingerichteten Hotel in den Bergen. Wir arbeiten an neuen Songs, die wir ab Frühling live spielen wollen. Musikalische Anhaltspunkte gibt es kaum, wir stellen uns mit zwei Schlagzeugen, Bass, Gitarren, Hackbrett und Mikrofonen vor ein weisses Blatt Papier und spielen drauflos. Stundenlang bewegen wir uns zwischen Mustern hin und her, hängen bei kleinsten Figuren ein und versuchen, an ihnen Akkordfolgen, Rhythmen und Worte kondensieren zu lassen. Auf diesem Weg Musik zu schaffen, erfordert Geduld. Es bedeutet, mittelmässige Ideen gemeinsam aus- und aufrechtzuerhalten, oft über mehrere Proben hinweg – und ohne Garantie dafür, dass sie sich irgendwann in gute Ideen verwandeln.

Tags darauf klimpert jemand im Proberaum scheinbar gedankenverloren auf der Gitarre herum. Das Gespielte scheint eine Person nach der anderen in den Proberaum zu locken. Ohne es abgesprochen zu haben, sitzen plötzlich alle an ihren Instrumenten, lehnen sich in die Melodie hinein – zwei Stunden später ist ein neuer Song da.

Als Musiker wie als Hörer treibt mich die Vorstellung um und an, bedeutungsvolle musikalische Momente seien nur der Höhepunkt einer langen Entwicklung, die sich Stunden, vielleicht Tage vor jenem Moment anzubahnen beginnt, der später als isoliertes Ereignis in Erinnerung bleiben wird: der Moment, wenn mich die Stimme eines unbekannten Songs während des Abwaschens erreicht und plötzlich weinen lässt, der Moment, wenn sich an einem Konzert Publikum und Band zu einem einzigen Ganzen zu verbinden scheinen.

So brauchte auch dieser neue Song die gemeinsamen Tage bis dahin – die vermeintlich ergebnislosen Proben, die beiläufigen Gespräche während des Abwaschens, das rhythmische Knarren der durchgelaufenen Holztreppe. Nur begrenzt steuern zu können, wann sich innere und äussere Bedingungen zu einem Moment verdichten, macht für mich das Musikmachen erst so reizvoll.


«Hör auf, nach dem Song zu suchen, den du brauchst – kreiere ihn», lautet der Slogan der Website Soundraw. Als «AI music generator» gehört die gleichnamige Software zu jenen Programmen, die in Medienberichten derzeit unter einer übergrossen Frage verhandelt werden: Wie wird künstliche Intelligenz das menschliche Musikschaffen beeinflussen?

Mit Soundraw lässt sich in wenigen Minuten ein Soundtrack zu jeder gewünschten Stimmung erzeugen – frei nach dem Baukastenprinzip: Du klickst dich durch ein Raster von Genres und Emotionen, es gibt ein Bildchen für «wütend» und eines für «traurig», du bestimmst Länge und Dynamik des Tracks, und fertig. Sekunde 1 bis 10 sollen leise, aber motivierend sein, Sekunde 11 bis 20 wiederum laut und energetisch, mit einem melancholischen Beigeschmack – das Ganze bitte auf Basis eines rockigen Songs.

Keine Frage, die Software kann als Demokratisierungswerkzeug ausgelegt werden. Sie lässt Produzent:innen und Hörer:innen verschmelzen und senkt die Einstiegshürden für Menschen, die sich das Musikmachen vielleicht nie zugetraut hätten. Keine Ahnung, ob ich mich je an professionelle Programme gewagt hätte, wäre auf meinem ersten Macbook nicht Garageband vorinstalliert gewesen – eine aufs Nötigste reduzierte Musiksoftware. Aber da wird es bereits ambivalent. Denn Garageband, deren unfreiwilliger Botschafter ich heute bin, ist auch eine dankbare Einstiegsdroge des mittlerweile «wertvollsten» Unternehmens der Welt.

Soundraw hat einen klaren ideellen Drall: Es zielt auf jene Sphäre, wo die Musik- mit der Marketingindustrie zusammenfliesst und Sounds als emotionale Streuwürze irgendwelche Produkte schmackhafter machen. Da erscheint Musik als simples Formelspiel, das grosse Gefühle auf Knopfdruck hervorzubringen vermag. Und wer sich bei Soundraw oder anderen Programmen wie Amper durch die Beispiele hört, wird merken, dass wir mit dieser Musik bereits sehr vertraut sind. Wir kennen sie von Youtube-Werbungen, in denen die nächste Revolution im Bereich elektrischer Zahnbürsten angekündigt wird, oder aus Kleiderläden, wo sie gleichermassen subtil wie aufdringlich in den Raum gesprayt wird, um uns in Shoppinglaune zu versetzen. Genau wie die Produkte, die sie bewirbt, ist sie selbst Teil des scheinbar endlosen Recyclingprozesses im kapitalistischen Verwertungszusammenhang: Minimal abgeänderte Ware wird mit minimal abgeänderten Tricks als Weltneuheit verkauft und verweist dabei doch nur auf sich selbst oder eine diffuse kollektive Erinnerung. Wie oft mir diese fröhlich gezupfte Westerngitarre wohl bereits begegnet ist, die mir für einen Moment ein Aufbruchsgefühl nach amerikanischem Vorbild einhaucht?


Wären KI-Softwares wie Soundraw Randerscheinungen am anderen Ende des musikalischen und ideologischen Spektrums, könnte ich sie stillschweigend zur Kenntnis nehmen. Doch sie führen nur weiter, was auf jenen Plattformen, an denen die wenigsten von uns vorbeikommen, längst Alltag ist.

«We’re not in the music space – we’re in the moment space», sagte Spotify-CEO Daniel Ek vor einigen Jahren. Der Satz liest sich ähnlich wie einer von Jeff Bezos: Der Erfolg von Amazon liege darin, dass man sich obsessiv mit dem Kunden befasse.

Im Bestreben, seinen mittlerweile 500 Millionen Kund:in­nen eine möglichst personalisierte «experience» zu bieten, hat Spotify musikalische Werke konsequent aus ihrem Entstehungskontext herausgelöst und in Playlists neu angeordnet, ihnen bestimmte Stimmungen zugeschrieben und sie in eine eigene, streng ökonomische Logik verbaut. Spotify organisiert Musik danach, ob sie roadtriptauglich ist, sich gut unter der Dusche singen lässt oder zu einem gemütlichen «dinner with friends» passt.

Je mehr davon bei Spotify veröffentlicht wird, desto genauer können die individuellen Bedürfnisse der Kund:innen anhand ihrer Hörgewohnheiten eruiert werden. So ist es auch sinnig, wenn Daniel Ek die Musiker:innen mahnt: «Ihr könnt nicht alle drei bis vier Jahre Musik veröffentlichen und meinen, das reiche aus.» Wer viel und unter bestimmten formalen Vorgaben produziert, wird algorithmisch belohnt.

Erfahrungsgemäss wird ein Song, wie wir ihn in der Residenz geschrieben haben, in den ersten drei Jahren maximal 70 000-mal gestreamt werden und ein paar hundert Franken einspielen – verteilt auf fünf Personen und das Label. Man braucht den Stundenlohn gar nicht erst auszurechnen. Wenn wir uns ökonomisch auf die Streaming-Einnahmen abstützen würden (oder müssten), könnten wir uns diese Arbeitsweise niemals erlauben. Daran ändern auch Konzerte und Gagen nichts – schon gar nicht nach Covid.

Wir können es uns erlauben, weil wir unsere Proben mit klassischer Lohnarbeit querfinanzieren, Ferientage «opfern», das Musikmachen offiziell als «Freizeit» abbuchen. Und nicht zuletzt: weil wir in der Schweiz vielfältige kulturelle Förderstrukturen kennen. Unseren Kreativprozess nicht an allen Ecken zu ökonomisieren, ist mindestens so sehr Privileg wie freie Entscheidung. Und es fühlt sich angesichts der Flut an veröffentlichter Musik zunehmend befremdlich an. Rund 100 000 Songs werden bei Spotify täglich raufgeladen – noch bevor selbstlernende Programme überhaupt das Spielfeld betreten haben. Mitzuerleben, wie schnell und klanglos so viele Alben, an denen Menschen mehrere Hundert Stunden gearbeitet haben, in diesem unnachgiebigen Strom untergehen, ist bitter. Gleichzeitig kann es dazu anregen, sich noch kompromissloser nach den eigenen Werten zu befragen. Denn gerade unter der Prämisse, dass es im gegenwärtigen System für mich und wohl auch für viele andere Musiker:innen keinerlei Aussichten auf ein ausgewogenes Verhältnis zwischen Aufwand und ökonomischem Ertrag gibt, stellt sich immer drängender die Frage: Worum geht es mir eigentlich? Was bringt für mich Bedeutung in die Musik? Und was bleibt auf der Strecke, wenn ich Zeit gewinne?

Ich hätte die Arbeit an diesem Text massiv abkürzen können, Chat GPT hätte mir eine solide Basis geboten. Aber ich hätte mich damit auch um zahlreiche Erfahrungen gebracht. Wie viele der forcierten und zufälligen Begegnungen mit Menschen, Texten und Realitäten wären ausgeblieben, wenn ich von Beginn an gewusst hätte, was ich suche? Wie viele Joggingrunden und Wanderungen hätte ich ausgelassen, von denen ich mit einem neuen Gedanken zurückkehrte?

Wie in allen Lebensbereichen werden die Technosolutionist:innen wohl auch bei der Musik mit ihren eindimensional beschleunigenden, gleichermassen hyperpersonalisierenden wie normierenden KI-Anwendungen selbstsicher einfahren und wo immer möglich vorspuren, wer wie unter welchen Umständen Musik hört und macht. Umso dringender und wohltuender sind Gegenrealitäten aus der Musikwelt selbst.


«Jetzt, da die neuen Generationen von künstlicher Intelligenz entwickelt werden, müssen wir uns auf fundamentaler Ebene fragen, was unsere Werte sind», sagt Holly Herndon in einem Interview. Die in Berlin lebende Musikerin arbeitet seit Jahren an der Schnittstelle von Musik und künstlicher Intelligenz. Bei ihrer Arbeit befasst sie sich intensiv mit den neoliberalen Prägungen unserer gegenwärtigen digitalen Infrastruktur – und damit, was sie für die kommenden Generationen von selbstlernenden Computerprogrammen bedeuten. Vergangenes Jahr lancierte Herndon einen eigenen digitalen Stimmenklon. «Holly+» ist ein mit künstlicher Intelligenz generiertes Sprachmodell ihrer eigenen Stimme. Über eine Plattform kann jede Person Soundfiles hochladen, worauf «Holly+» diese in gesungene Melodien übersetzt. Mit «Holly+» zielt Herndon auf künstlerische wie auch politische Diskurse – wobei einmal mehr deutlich wird, dass diese ohnehin nicht zu trennen sind. «Es gibt keine gesetzliche Praxis, wie Stimmen anderer Personen verwendet werden dürfen. Es ist kompliziert: Elvis Presleys Gesangsstil etwa resultiert sehr deutlich aus einer Tradition afroamerikanischer Sänger:innen. Die Geschichte des Pop ist eine der Emulsionen. Die Stimme ist nicht per se individuell; sie gehört immer auch einer Gruppe, einer Kultur, einer Gesellschaft. Was also ist eine Stimme? Und wie lässt sie sich urheberrechtlich schützen?» Zu ihren Fragen liefert Herndon auch Lösungsansätze: Die Urheberrechte an «Holly+» regelt sie über eine sogenannte Decentralized Autonomous Organization (DAO), eine Art digitale Genossenschaft. Diese legt fest, wie «Holly+» genutzt werden darf. Wer Herndons Stimme für kommerzielle Zwecke verwenden will, muss bei der DAO anfragen, die dann kollektiv darüber entscheidet, ob die Verwendung ihre grundsätzlichen Werte nicht verletzt. Die Einnahmen werden zwischen den Mitgliedern der DAO und der Musiker:in aufgeteilt.

Als ständige Begleiterscheinung fragen Holly Herndons Arbeiten aber auch immer, was es angesichts der aufkommenden Technologien bedeutet, Mensch zu sein. Für ihr 2019 erschienenes Album «Proto» entwickelte sie auf einem modifizierten Gamingcomputer ein neuronales Netzwerk, das sie mit Samples von menschlichen Stimmen trainierte. Dafür lud sie über Monate Dutzende von Sänger:innen ein, um der künstlichen Intelligenz, genannt Spawn, gemeinsam vorzusingen. In diesem Arbeitsprozess liess sie die gemeinschaftlichste und archaischste Form des Musikmachens, den Chorgesang, verschmelzen mit dem vermeintlichen Sinnbild für die entfremdetste. Aus den Hunderten gesprochenen und gesungenen Sequenzen errechnete Spawn viele Stunden Soundmaterial, das Herndon fortlaufend auswertete und die Software erneut transformieren liess, bis sich daraus Songs für ein unbequemes Album formten. Ein Album, das die Euphorie über die Möglichkeiten und den Respekt vor dem Machtmissbrauch dieser Technologie ungebremst aufeinanderprallen lässt. «Proto» ist ein anhaltender Knall aus flirrenden Geräuschen, collagierten Vocalsamples und fragmentierten Beats, zu gleichen Teilen beängstigend wie anziehend, je nach Verfassung. Und gerade in dieser Ambivalenz erkenne ich mich als Mensch wieder. In diesem Ringen um verlässliche An- und Einsichten, die ja doch immer wieder über den Haufen geworfen werden (müssen). Fehlt nur noch die physische Präsenz anderer Körper.


«Es gibt nichts Schöneres, als Menschen zu versammeln, die einander begeistern, bis sie nichts mehr von stolz sein halten», heisst es im Editorial zur Bad Bonn Kilbi 2022. Das Musikfestival ist längst ein Selbstläufer. Zuverlässig lockt es jedes Jahr mehrere Tausend Besucher:innen nach Düdingen – ein Dorf zwischen den grossen Erzählungen, an der Autobahn zwischen Bern und Fribourg. Auf dem Parkplatz vor dem Konzertlokal Bad Bonn, umgeben von Erdbeerfeldern und Kartoffeläckern, verschwinden sie während drei Tagen in einer Wolke aus vorwärts schauender Popmusik und avantgardistischen Verschrobenheiten. Wer hingehen will, hat keine Zeit, das Programm auf den eigenen Geschmack hin zu überprüfen, die Tickets sind jeweils innert Minuten ausverkauft. «Wir haben Angst, die Leute meinen, dass wir was wissen. Aber uns geht es um die Attitüde. Die bringt nicht alle gleichzeitig zum Lachen», steht im Editorial von 2018.

Die Kilbi mag heute bis zur Karikatur stilisiert worden sein – aber kaum ein Konzertveranstalter hat hierzulande mit seinem Programm so charmant und vehement um Ambivalenz geworben und Bedingungen geschaffen, um das Unerwartete und Zufällige zu kultivieren, Dissonanz nicht nur zu akzeptieren, sondern als aufregenden Teil des Erlebens zu feiern. «Lass uns irgendeine Scheisse bauen. Menschen werden dann am menschlichsten, wenn sie scheitern.» Dann sitzt du mit deinem veganen Döner vom linksalternativen Künstler:innenkollektiv mild zerknirscht unter dem übergrossen Coca- Cola-Schirm, auf der Bühne spielen sich zwei indische Mandolinespielerinnen entlang der Tradition karnatischer Musik, aus dem Haus gegenüber dringen dumpf die Bässe einer Elektrokünstlerin – das Setting als problematisch zu entlarven, fällt leicht. Aber gerade in seiner Kontinuität lädt dieser Ort dazu ein, die eigenen Reflexe auf ihre Zwischentöne zu überprüfen.

Es gibt Künstler:innen, die habe ich hier mindestens fünfmal spielen sehen. In immer wieder neuen Konstellationen, mit immer wieder neuen Ideen auf immer wieder anderen Bühnen und zu anderen Zeiten. Beiläufig bin ich auf diesem Weg ständiger Zeuge ihrer künstlerischen Entwicklung geworden, wobei mich die prekären Momente dieser Serien mindestens so sehr berührten wie die ungefährdeten.

Wie sich Performance, Tageszeit, Bühne und Publikum zu immer wieder neuen Realitäten verbinden können, erkunden auch Festivals wie das One of a Million in Baden, wenn Rozi Plain die Abdankungshalle des Krematoriums mit ihrem zuversichtlichen Folkpop aufhellen oder Martina Berther die betonierte Fahrzeuggarage des Werkhofs mit stehenden Bassdrones füllen lässt. Und sich über diesen Kombinationen plötzlich Gespräche über die eigene Beerdigung oder das raffinierte Design von Strassenputzwagen entwickeln, während die Besucher:innen von Konzert zu Konzert durch die Stadt spazieren und an Orten vorbeikommen, die weit weg von ihren gewohnten Routen liegen.

PS: Das Bad Bonn ist auch offen, wenn gerade keine Kilbi ist. Täglich ausser Montag, ab 16 Uhr bis spät. Seit dreissig Jahren. Manchmal sind viele Leute da, manchmal wenige. Manchmal sitzen an der Bar Gäste mit Leuchtwesten und Arbeitsschuhen und verschränkten Armen vor grossen Cardinal-Flaschen und schauen HC Fribourg-Gottéron, während im gleichen Raum eine queerfeministische Hip-Hop-Crew Soundcheck macht. Manchmal kommt es zu Irritationen, manchmal zu Sensationen, manchmal passiert gar nichts.

Donat Kaufmann ist Gitarrist und Sänger der Band One Sentence. Supervisor, mit der er auch schon an der Kilbi und am «One of a Million» aufgetretren ist.