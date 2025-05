Sprachmodelle wie ChatGPT , Gemini, Claude oder die Meta-KI Llama halten immer weiter Einzug in unseren Alltag. Private Anwender nutzen sie als Google-Ersatz, zur Reiseplanung oder lassen sich bei Übersetzungen helfen. Unternehmen setzen Sprachmodelle beispielsweise in Chatbots ein, um Kundenanfragen automatisch zu beantworten, Juristen erstellen Schriftsätze fürs Gericht mit KI.

Was vielen jedoch nicht bewusst ist: Ausgerechnet die leistungsfähigsten neuen Systeme machen zunehmend Fehler - sie denken sich Antworten einfach aus. Experten sprechen in solchen Fällen von "Halluzinationen".

Fehlerraten von bis zu 80 Prozent bei neuen Modellen

Laut internen Tests der ChatGPT-Entwicklerfirma OpenAI halluzinieren gerade die neueren Modelle von ChatGPT besonders häufig. Das Flagschiff-Modell GPT o3 macht in etwa einem Drittel der Fälle Fehler, wenn es Fragen zu öffentlichen Personen beantworten soll. Das ist mehr als doppelt so häufig wie der Vorgänger o1. Bei allgemeinen Wissensfragen kommt o4-mini auf Fehlerraten von bis etwa 80 Prozent. Auch andere Entwickler von Sprachmodellen haben das Problem.

OpenAI muss Update zurückziehen - ChatGPT war zu nett

Es sind längst keine Einzelfälle mehr. Besonders problematisch sind falsche Informationen von Künstlicher Intelligenz in sensiblen Bereichen wie Medizin oder Justiz. Tatsächlich kam es bereits mehrfach vor, dass Anwälte in Gerichtsverfahren KI nutzten und sich auf angebliche Präzedenzfälle beriefen, die es nie gab . Sprachmodelle hatten sie erfunden - samt Aktenzeichen, Gerichtsbarkeit und Argumentation.

KI empfiehlt antisemitische Verschwörungstheoretiker

In einem offiziellen Statement erklärte OpenAI, was mit dem Update schief gelaufen war und wie künftige Versionen besser trainiert und überprüft werden sollen.

Das Grundproblem von Sprachmodellen: Sie können nicht entscheiden, was wahr und was falsch ist. KI-Systeme funktionieren nicht nach festen Regeln, sondern nach Wahrscheinlichkeiten. "Diese Modelle wurden gebaut, um Wörter vorherzusagen, nicht um die Wahrheit vorherzusagen oder wiederzugeben", erklärt Informatik-Professor Jannik Strötgen von der Hochschule Karlsruhe im Gespräch mit ZDFheute.

Fortschritt mit Rückschritt

Modelle könnten also oft sehr gut angepasst werden, um Neues zu lernen. Es sei aber sehr schwierig über sämtliche bereits gelernten Fähigkeiten hinweg keine Qualitätseinbußen in Kauf nehmen zu müssen, so der Experte.

Reasoning-Modelle geraten ins Straucheln

Ähnlich sieht das auch Laura Perez-Beltrachini, Forscherin an der Universität Edinburgh, die das Halluzinationsproblem intensiv untersucht: "So wie diese Systeme trainiert werden, fangen sie an, sich auf eine Aufgabe zu konzentrieren - und vergessen dabei andere", erklärte sie gegenüber der "New York Times".