Warum Künstliche Intelligenz Sprecher (noch) nicht ersetzt

Sprachgeneratoren:Warum KI (noch) nicht Sprecher ersetzen kann

von David Metzmacher

11.03.2024 | 21:07

|

Sprachgeneratoren mit Künstlicher Intelligenz können Stimmen erzeugen, die fast echt klingen. Sprecher von Werbung und Hörbüchern sehen sich durch die Technologie bedroht. Zurecht?

Darstellung eines Mikrofons

Wird Audio-KI in Zukunft Sprecher ersetzen?

Quelle: DALLE-E / David Metzmacher

"Ich habe das Gefühl, wir reden seit meinem Amtsantritt im März 2023 über nichts anderes als Künstliche Intelligenz", sagt Anna-Sophia Lumpe, erste Vorsitzende des Verbands Deutscher Sprecher:innen. Viele Mitglieder seien geradezu "angsterfüllt" gewesen: "Als ich angetreten bin, war die Stimmung absolut im Keller."

In ihrem Verband will Lumpe dafür sorgen, dass sich ein realistischerer Blick auf generative KI durchsetzt. Denn: "Vieles ist gar nicht so gut, einfach oder günstig, wie es auf den ersten Blick scheint."

Wir haben derzeit oft die Situation, dass ein professioneller Bereich - wie das Sprechen - von Laien beurteilt wird.

Anna-Sophia Lumpe, Verband Deutscher Sprecher:innen

Das deutsche Bildungssystem ist enorm unter Druck. Inwieweit der Einsatz von KI im Unterricht da helfen kann - das ist ein Thema, das auf der Bildungsmesse Didacta diskutiert wird.

Das deutsche Bildungssystem ist enorm unter Druck. Inwieweit kann der Einsatz von KI im Unterricht helfen?21.02.2024 | 1:49 min

Wie Künstliche Intelligenz sprechen lernt

Videos, in denen Menschen plötzlich andere Sprachen sprechen oder Politiker, die in Aufnahmen täuschend echt Dinge sagen, die sie so nie gesagt haben. Wie funktioniert das?

"KI ist Mustererkennung", erklärt Nicolas Müller. Er beschäftigt sich am Fraunhofer AISEC mit Audio-KI und Deepfakes. "Das heißt, die KI lernt den statistischen Zusammenhang zwischen Text und Sprache." Sprachgeneratoren werden mit einer großen Zahl an Daten aus Paaren von Audio-Dateien und Transkripten trainiert.

Wenn sie das gelernt hat, kann die KI auch neue Stimme synthetisieren. Dadurch lernt sie sprechen.

Nicolas Müller, wissenschaftlicher Mitarbeiter am Fraunhofer AISEC

Obwohl dabei beeindruckende Ergebnisse entstehen können, sind diese mit von Menschen gesprochenen Texten noch nicht vergleichbar, denn: "Es ist wirklich schwer, der KI beizubringen, Sätze so zu betonen, dass es exakt zum Inhalt passt. KI-Stimmen haben noch große Probleme mit Ironie oder subtilen Bedeutungen."

In this photo illustration, a video created by Open AI's newly released text-to-video "Sora" tool plays on a monitor in Washington, DC on February 16, 2024.

Die Entwickler von ChatGPT haben einen Filmgenerator veröffentlicht. Er heißt Sora und kann aus kurzen Text-Vorgaben realistische Videos erzeugen.16.02.2024 | 1:31 min

Noch eindeutige Grenzen von Audio-KI

"Was Sprachgeneratoren noch nicht so gut können, ist es Zuhörer mitzureißen", sagt Müller. Denn anders als echte Sprecher versteht die Sprach-KI nicht wirklich, was sie sagt. Sie weiß nur, wie Worte und Satzzusammenhänge im Durchschnitt ihrer Trainingsdaten ausgesprochen wurden - und dies repliziert sie.

Deswegen klingen diese Stimmen teilweise roboterartig.

Nicolas Müller, wissenschaftlicher Mitarbeiter am Fraunhofer AISEC

... bedeutet, wie gut und verständliche ein KI-Stimme Wörter und Sätze aussprechen kann. Natürliche Stimmen können für Menschen etwa in der Interaktion mit Maschinen hilfreich sein, beispielsweise beim Navigationssystem oder dem Smart-TV.

... meint, wie genau eine Text-zu-Sprache-KI es schafft, echte Stimmen von realen Personen nachzuahmen. Dies wird bei Deepfakes zum Problem, wenn es nämlich eine KI schafft, Stimme so nachzubilden, dass Menschen keinen Unterschied mehr zwischen dem Original und dem Fake erkennen können.

Wo heute bereits Audio-KI drinsteckt

"Dass das Navigationssystem oder die Straßenbahn mit uns redet, das kennen wir schon länger", sagt Müller. Das Anwendungsfeld von Audio-KI erweitere sich gerade enorm. So gibt es Hörbücher mit KI, einige Nachrichtenportale vertonen so kostengünstig ihre Text-Inhalte.

Das klingt zwar nicht so gut wie ein Mensch, ist aber, etwa für ältere Menschen, die nicht mehr gut lesen können oder auch für Blinde, ein großer Vorteil.

Nicolas Müller, wissenschaftlicher Mitarbeiter am Fraunhofer AISEC

Bei Synchronaufnahmen oder Podcasts können mit Audio-KI Versprecher korrigiert werden, etwa bei falsch genannten Jahreszahlen oder Namen - genau wie das bei Text-Dokumenten möglich ist. Die Interessengruppe Hörbuch des Börsenvereins des Deutschen Buchhandels sieht weitere Vorteile:

Perspektivisch könnte sich durch generative KI ein zusätzliches Spiel- und Experimentierfeld für viele Verlage auftun.

Heike Völker-Sieber, Sprecherin der IG Hörbuch

So könnten etwa Inhalte für sehr kleine, spitze Zielgruppen, die sich bisher einfach nicht gelohnt haben, in Zukunft umgesetzt werden.

Symbolbild: Künstliche Intelligenz (KI)

Häufig sieht man Bilder im Internet, die von einer Künstlichen Intelligenz geschaffen wurden. Manche Fälschungen sind offensichtlich. Aber es entstehen immer mehr gefährliche Fakes.27.12.2023 | 1:50 min

Bedroht KI den Sprecher-Beruf?

"Bei der Produktion von Filmen oder Videospielen sind Synchronaufnahmen ein erheblicher Kostenfaktor", sagt Müller. "Audio-KI kann diesen Prozess demokratisieren." Denn was früher nur große Studios umsetzen konnten, ist nun auch kleinen Studios oder sogar Privatpersonen möglich. Doch was für die einen ein Vorteil ist, wirkt für andere als Bedrohung:

Wie sich der KI-Boom in Zahlen auf die Sprecher-Branche auswirkt hat, ist laut Lumpe vom Verband der Sprecher:innen schwer zu sagen: "Letztes Jahr hatten wir bei der Werbung einen extremen Einbruch - aber nicht wegen KI, sondern wegen der wirtschaftlichen Unsicherheit und den beiden Kriegen." Hinzu sei der Streik in Hollywood gekommen, der für weniger Aufträge im Synchron-Bereich gesorgt habe.

Der Serien-Hype geht offenbar zu Ende

"Es wird weiterhin hochkünstlerische Interpretationen von unverwechselbaren Schauspielerinnen und Schauspielern im Hörbuch geben", ist sich Völker-Sieber von der IG Hörbuch sicher. Das glaubt auch Lumpe:

Jobs, die schon heute an KI gehen, sind welche, die nur einen geringen Qualitätsanspruch haben. Für mich als professionelle Sprecherin macht es eigentlich keinen Unterschied, ob sich jemand auf Fiverr einen Sprecher für 50 Euro oder eine KI-Stimme bei Elevenlabs für 5 Euro bucht.

Anna-Sophia Lumpe, Verband Deutscher Sprecher:innen

Ein Messebesucher geht an einem Leuchtdisplay auf der CeBIT vorbei.

Die EU hat sich auf Regeln für Künstliche Intelligenz geeinigt. KI beruht auf "selbst denkenden" Computerprogrammen und birgt Chancen sowie auch Gefahren.09.12.2023 | 1:46 min

Künstliche Intelligenz: Forderung nach Regulierung

"Wünschenswert und erstrebenswert wäre die Entwicklung von Standards, zum Beispiel in der Kennzeichnung von KI-generierten Produktionen Richtung Endkunden. Bislang besteht hierzu noch keine rechtliche Verpflichtung", heißt es von der IG Hörbuch.

Google-Chef für weltweite KI-Regeln

"Wir kämpfen hart für Regulierung", sagt auch Lumpe in Bezug auf Urheberrecht und Datenschutz. "Viele KI-Unternehmen benutzen urheberrechtlich geschütztes Material, wollen damit Milliarden generieren - und werden dabei noch nicht aufgehalten."

Ich glaube, dass wir jetzt gerade durch dieses Tal der Unsicherheit durchmüssen. Wenn die Leute über KI aufgeklärt sind und erste Gerichtsurteile da sind, wird sich das verändern.

Anna-Sophia Lumpe, Verband Deutscher Sprecher:innen

Thema

Künstliche Intelligenz

Mehr zum Thema Künstliche Intelligenz

KI und Hacker

FAQ

Cybersicherheit:KI als Waffe: Steigt die Hacker-Gefahr?

von David Metzmacher

Elon Musk

mit Video

Profit statt Open Source?:Musk verklagt ChatGPT-Entwickler OpenAI

Klarna App

Bezahldienstleister Klarna:Wo KI die Arbeit von Hunderten Menschen macht

von Sina Mainitz

mit Video

Wirbel um Hautfarben bei Bild-KI:Warum Google zu politisch korrekt ist

von Oliver Klein