
Als Tristan Behrens während seiner Kindheit in den 80ern erste Synth-Pop-Musik aus dem Radio schallen hörte, wusste der studierte Informatiker vermutlich nicht, wie nahe er heute diesem Genre als Musiker kommen wird. Wobei: Musiker, großes Wort in diesem Zusammenhang. Die Musik macht für den Würzburger jemand anderes, etwas anderes. Ein Computerprogramm, das er selbst programmierte.
"Dancing with my Robot" heißt der neueste Song aus der Maschine, die beim AI Song Contest 2022 ebenfalls gelistet war und für die der Würzburger dann doch mehr machen muss, als es erst einmal scheint. Im Gespräch erklärt Behrens, was genau diese künstliche Intelligenz ist und was sie genau mit Musik zu tun hat.
Tristan Behrens: Diese KI ist ein tiefes neuronales Netz, das ich auf 400.000 Lieder trainiert habe – da sind Songs aus den 80ern drin, an denen sich auch "Dancing with my Robots" orientiert, aber nicht nur. Diese 400.000 Songs sind sogenannte MIDI-Dateien, die es online zu finden gibt.
Behrens: Die KI kann nur das. Wenn die auf Musik trainiert ist, besteht die nur aus einzelnen Noten. Die kann beispielsweise nicht Autofahren. Wir Menschen haben eine Wahrnehmung, Ideen und Inspirationen. Das hat die KI nicht. Das unterscheidet uns also maßgeblich.
Behrens: Die KI ist nicht in der Lage, eine komplette musikalische Geschichte zu erzählen. Vier bis acht Takte erschafft die KI, manchmal sogar 40 Takte. Damit sie das kann, hat allein die Datenvorverarbeitung 30 Stunden auf einem Hochleistungscomputer gedauert, das Training etwa eineinhalb Wochen auf 16 Grafikkarten.
Behrens: Wenn man der KI eine Tonabfolge gibt, sagt sie die nächste Note voraus. Das ist eine statistische Verteilung. Was man als Mensch schön empfindet, das hat auch viel mit Statistik zu tun. Ein Beispiel sind die vier Akkorde der Pop-Musik, aus denen alle Popsongs bestehen. Während des Trainings lernt die KI, die richtige Note vorherzusagen. Und dann wird sie belohnt, wenn es die richtige Note auf Basis von bekannten Songs vorhersagt.
Behrens: Das hat auch schon mit Musik von Johann Sebastian Bach funktioniert. Wenn man das mit Regeln ausdrücken muss, sind es etwa 300 musikalische Regeln, die zeigen, was erlaubt und verboten ist, damit die Musik als solche anerkannt wird.
Behrens: Es dauert üblicherweise 15 Minuten, bis ich da alles habe, was ich möchte. Ich bin dann aber schon ein Produzent und lege das Tempo fest, baue eine Bridge, mache das Arrangement oder lege fest, wie das alles klingen soll. Und dann kommt noch Gesang dazu, der in diesem Fall von meiner Verlobten Dominika übernommen wurde.
Behrens: Mit der KI schreibe ich auch einen Songtext. Das ist eine andere KI, das ist ein sogenanntes großes Sprachmodell, und das kann ich benutzen. Beim Video gebe ich ebenfalls einen Text ein, beispielsweise, dass Roboter tanzen sollen. Am Ende ist das eine künstlich erzeugte Animation, die ein Video wurde.
Behrens: Nein, gar nicht. Ich spreche viel mit Musikern und die nehmen das selbst gut an. Weil keiner kann so viele Ideen gleichzeitig haben wie eine KI. Und mit diesen Ideen kann man dann arbeiten und das zu einem Song weiterentwickeln. Es gibt nur wenige, die ich kenne und die das aus technischer Sicht ablehnen.
Behrens: Musik ist viel, viel mehr, als die KI kann. Eine Musik nimmt einen auf eine Reise durch die Noten. Das hat viel mit dem Inhalt und mit der Emotion zu tun, die vermittelt wird. Mich treibt um, dass die meisten Menschen sehr musikalisch sind. Wir beschäftigen und umgeben uns viel mit Musik. Das hat was mit unserer Sprachbasiertheit als Mensch zu tun, nur drücken wir uns mit Musik anders aus.