Mit Sprach-KI ist die eigene Stimme nicht vor Diebstahl sicher
Mit KI-Software wie Elevenlabs lassen sich Stimmen in wenigen Sekunden klonen. Bisher klappt das nur auf Englisch und nicht immer ist die Imitation perfekt. Der Stuttgarter Medienrechtler Tobias Keber warnt dennoch davor, solche Programme leichtfertig zu nutzen.

Das Video zeigt eine Rede von Filmstar Leonardo DiCaprio. Er spricht vor der Generalversammlung der UN in New York, es geht um Klimaschutz. Doch dann wechselt die Tonspur: Noch immer sind es DiCaprios Worte, doch nun in der Stimmlage von Robert Downey Jr., dann in der von Steve Jobs, von Bill Gates, von Kim Kardashian.
Das Video der Firma Elevenlabs soll zeigen, wozu Sprach-KI heutzutage fähig ist. Sie imitiert Stimmen nahezu perfekt, ahmt die Sprachmelodie einer Person nach und betont fast wie ein Mensch. Es klingt, als würde da wirklich Kardashian Worte sprechen, die in Wahrheit DiCaprio gesagt hat.
Im Netz werden die Stimmen von Prominenten schon munter geklont
Das Internet ist voll von Videos, in denen Menschen mit der Software rumspielen. Sie lassen Computerspiele von früheren US-Präsidenten kommentieren. Digitalexperte Sascha Lobo demonstrierte das Können der KI kürzlich, indem er seinen Podcast vermeintlich von Olaf Scholz bewerben ließ.
Das Problem: Obama und Scholz haben diese Sätze nie gesagt, ihre Stimmen wurden von der KI geklont. Das klappt schon mit einer kurzen Aufnahme, solange sie in passabler Qualität und ohne Hintergrundgeräusche ist. Im Test genügten 20 Sekunden Material, um eine englische Stimme glaubhaft zu imitieren. Wer möchte, kann mehr und längere Audios hochladen, für die Feinjustierung. Ist die Stimme erstmal geklont, können Nutzer völlig frei Text eingeben, den die KI mit der imitierten Stimme nachspricht.
Bis Sprach-KI Deutsch kann, ist es wohl nur eine Frage der Zeit
Bisher klappt das nur auf Englisch. Deutsche Sprecher kann die Software zwar ebenfalls nachahmen, jedoch werden die eingegebenen Wörter nicht korrekt betont. Doch das dürfte nur eine Frage der Zeit sein.
Das hat die Text-KI ChatGPT gezeigt, die eigentlich auf Englisch trainiert wurde, auf deutsche Kommandos aber problemlos reagiert und auf Deutsch antwortet. Neben Elevenlabs, Descript Overdub und Murf.AI gibt es dutzende weitere Unternehmen, die ähnliche Dienste anbieten.
Stuttgarter Medienrechtler Tobias Keber warnt: Mit der Stimme kann man viel Schindluder treiben
Für Tobias Keber ist klar, welche Risiken eine solche Technik birgt. Er ist Professor für Medienrecht an der Hochschule der Medien in Stuttgart und Mitgründer des Instituts für digitale Ethik. "Wenn ich mein Passwort verliere, kann ich ein neues machen. Die Stimme aber ist einmalig. Wenn ich sie hergebe, kann man viel Schindluder damit treiben." Ein denkbares Szenario: Kriminelle könnten bei den Eltern oder Großeltern anrufen und mit der kopierten Stimme um Geld bitten.
Deshalb rät Keber davon ab, die eigene Stimme zu klonen. Kritisch sieht er außerdem, dass die Stimmen genutzt werden, um weitere KI-Modelle zu trainieren. "Die erste Frage, die ich mir als Nutzer stellen sollte, ist: Was machen die mit meinen Daten?"
Der Rechtsanwalt rät ebenfalls davon ab, Stimmen mit Audioaufnahmen aus dem Internet ohne die Zustimmung der Betroffenen zu klonen. "Die Stimme, das gesprochene Wort, gehört zum Persönlichkeitsrecht und ist besonders geschützt." Betroffene könnten sich dagegen juristisch wehren. Gleichzeitig sei es kaum möglich, das unerlaubte Klonen zu verhindern.
Ein Verbot führt nicht zum Ziel
Von einem Verbot solcher Anwendungen hält Keber jedoch nichts. Wer möchte, solle seine eigene Stimme oder fremde Stimmen mit Erlaubnis sorgenfrei klonen dürfen. "Es ist ja durchaus denkbar, dass jemand seine Stimme zum Beispiel für seine Erben bewahren möchte." Generell plädiert der Medienrechtler dafür, dass von einer KI erschaffene Inhalte als solche gekennzeichnet werden - eine Maßnahme, an der die EU mit der KI-Verordnung derzeit arbeitet.
Letztlich sei es beim aktuellen Boom von KI-Anwendungen wie bei allem, betont der Experte: Neue Technik werde erstmal kritisch gesehen, im Laufe der Zeit steige die Akzeptanz, weil Vorteile die Nachteile überwiegen.