Warum Künstliche Intelligenz Sprecher (noch) nicht ersetzt

    Sprachgeneratoren:Warum KI (noch) nicht Sprecher ersetzen kann

    von David Metzmacher
    |

    Sprachgeneratoren mit Künstlicher Intelligenz können Stimmen erzeugen, die fast echt klingen. Sprecher von Werbung und Hörbüchern sehen sich durch die Technologie bedroht. Zurecht?

    Darstellung eines Mikrofons
    Wird Audio-KI in Zukunft Sprecher ersetzen?
    Quelle: DALLE-E / David Metzmacher

    "Ich habe das Gefühl, wir reden seit meinem Amtsantritt im März 2023 über nichts anderes als Künstliche Intelligenz", sagt Anna-Sophia Lumpe, erste Vorsitzende des Verbands Deutscher Sprecher:innen. Viele Mitglieder seien geradezu "angsterfüllt" gewesen: "Als ich angetreten bin, war die Stimmung absolut im Keller."
    In ihrem Verband will Lumpe dafür sorgen, dass sich ein realistischerer Blick auf generative KI durchsetzt. Denn: "Vieles ist gar nicht so gut, einfach oder günstig, wie es auf den ersten Blick scheint."

    Wir haben derzeit oft die Situation, dass ein professioneller Bereich - wie das Sprechen - von Laien beurteilt wird.

    Anna-Sophia Lumpe, Verband Deutscher Sprecher:innen

    Das deutsche Bildungssystem ist enorm unter Druck. Inwieweit der Einsatz von KI im Unterricht da helfen kann - das ist ein Thema, das auf der Bildungsmesse Didacta diskutiert wird.
    Das deutsche Bildungssystem ist enorm unter Druck. Inwieweit kann der Einsatz von KI im Unterricht helfen?21.02.2024 | 1:49 min

    Wie Künstliche Intelligenz sprechen lernt

    Videos, in denen Menschen plötzlich andere Sprachen sprechen oder Politiker, die in Aufnahmen täuschend echt Dinge sagen, die sie so nie gesagt haben. Wie funktioniert das?
    "KI ist Mustererkennung", erklärt Nicolas Müller. Er beschäftigt sich am Fraunhofer AISEC mit Audio-KI und Deepfakes. "Das heißt, die KI lernt den statistischen Zusammenhang zwischen Text und Sprache." Sprachgeneratoren werden mit einer großen Zahl an Daten aus Paaren von Audio-Dateien und Transkripten trainiert.

    Wenn sie das gelernt hat, kann die KI auch neue Stimme synthetisieren. Dadurch lernt sie sprechen.

    Nicolas Müller, wissenschaftlicher Mitarbeiter am Fraunhofer AISEC

    Obwohl dabei beeindruckende Ergebnisse entstehen können, sind diese mit von Menschen gesprochenen Texten noch nicht vergleichbar, denn: "Es ist wirklich schwer, der KI beizubringen, Sätze so zu betonen, dass es exakt zum Inhalt passt. KI-Stimmen haben noch große Probleme mit Ironie oder subtilen Bedeutungen."
    In this photo illustration, a video created by Open AI's newly released text-to-video "Sora" tool plays on a monitor in Washington, DC on February 16, 2024.
    Die Entwickler von ChatGPT haben einen Filmgenerator veröffentlicht. Er heißt Sora und kann aus kurzen Text-Vorgaben realistische Videos erzeugen.16.02.2024 | 1:31 min

    Noch eindeutige Grenzen von Audio-KI

    "Was Sprachgeneratoren noch nicht so gut können, ist es Zuhörer mitzureißen", sagt Müller. Denn anders als echte Sprecher versteht die Sprach-KI nicht wirklich, was sie sagt. Sie weiß nur, wie Worte und Satzzusammenhänge im Durchschnitt ihrer Trainingsdaten ausgesprochen wurden - und dies repliziert sie.

    Deswegen klingen diese Stimmen teilweise roboterartig.

    Nicolas Müller, wissenschaftlicher Mitarbeiter am Fraunhofer AISEC



    Wo heute bereits Audio-KI drinsteckt

    "Dass das Navigationssystem oder die Straßenbahn mit uns redet, das kennen wir schon länger", sagt Müller. Das Anwendungsfeld von Audio-KI erweitere sich gerade enorm. So gibt es Hörbücher mit KI, einige Nachrichtenportale vertonen so kostengünstig ihre Text-Inhalte.

    Das klingt zwar nicht so gut wie ein Mensch, ist aber, etwa für ältere Menschen, die nicht mehr gut lesen können oder auch für Blinde, ein großer Vorteil.

    Nicolas Müller, wissenschaftlicher Mitarbeiter am Fraunhofer AISEC

    Bei Synchronaufnahmen oder Podcasts können mit Audio-KI Versprecher korrigiert werden, etwa bei falsch genannten Jahreszahlen oder Namen - genau wie das bei Text-Dokumenten möglich ist. Die Interessengruppe Hörbuch des Börsenvereins des Deutschen Buchhandels sieht weitere Vorteile:

    Perspektivisch könnte sich durch generative KI ein zusätzliches Spiel- und Experimentierfeld für viele Verlage auftun.

    Heike Völker-Sieber, Sprecherin der IG Hörbuch

    So könnten etwa Inhalte für sehr kleine, spitze Zielgruppen, die sich bisher einfach nicht gelohnt haben, in Zukunft umgesetzt werden.
    Symbolbild: Künstliche Intelligenz (KI)
    Häufig sieht man Bilder im Internet, die von einer Künstlichen Intelligenz geschaffen wurden. Manche Fälschungen sind offensichtlich. Aber es entstehen immer mehr gefährliche Fakes.27.12.2023 | 1:50 min

    Bedroht KI den Sprecher-Beruf?

    "Bei der Produktion von Filmen oder Videospielen sind Synchronaufnahmen ein erheblicher Kostenfaktor", sagt Müller. "Audio-KI kann diesen Prozess demokratisieren." Denn was früher nur große Studios umsetzen konnten, ist nun auch kleinen Studios oder sogar Privatpersonen möglich. Doch was für die einen ein Vorteil ist, wirkt für andere als Bedrohung:
    Wie sich der KI-Boom in Zahlen auf die Sprecher-Branche auswirkt hat, ist laut Lumpe vom Verband der Sprecher:innen schwer zu sagen: "Letztes Jahr hatten wir bei der Werbung einen extremen Einbruch - aber nicht wegen KI, sondern wegen der wirtschaftlichen Unsicherheit und den beiden Kriegen." Hinzu sei der Streik in Hollywood gekommen, der für weniger Aufträge im Synchron-Bereich gesorgt habe.
    "Es wird weiterhin hochkünstlerische Interpretationen von unverwechselbaren Schauspielerinnen und Schauspielern im Hörbuch geben", ist sich Völker-Sieber von der IG Hörbuch sicher. Das glaubt auch Lumpe:

    Jobs, die schon heute an KI gehen, sind welche, die nur einen geringen Qualitätsanspruch haben. Für mich als professionelle Sprecherin macht es eigentlich keinen Unterschied, ob sich jemand auf Fiverr einen Sprecher für 50 Euro oder eine KI-Stimme bei Elevenlabs für 5 Euro bucht.

    Anna-Sophia Lumpe, Verband Deutscher Sprecher:innen

    Künstliche Intelligenz: Forderung nach Regulierung

    "Wünschenswert und erstrebenswert wäre die Entwicklung von Standards, zum Beispiel in der Kennzeichnung von KI-generierten Produktionen Richtung Endkunden. Bislang besteht hierzu noch keine rechtliche Verpflichtung", heißt es von der IG Hörbuch.
    "Wir kämpfen hart für Regulierung", sagt auch Lumpe in Bezug auf Urheberrecht und Datenschutz. "Viele KI-Unternehmen benutzen urheberrechtlich geschütztes Material, wollen damit Milliarden generieren - und werden dabei noch nicht aufgehalten."

    Ich glaube, dass wir jetzt gerade durch dieses Tal der Unsicherheit durchmüssen. Wenn die Leute über KI aufgeklärt sind und erste Gerichtsurteile da sind, wird sich das verändern.

    Anna-Sophia Lumpe, Verband Deutscher Sprecher:innen

    Mehr zum Thema Künstliche Intelligenz