Welches KI-Sprachmodell ist das beste?

    Wettrennen der Tech-Firmen:Welches KI-Sprachmodell ist das beste?

    von David Metzmacher
    |

    Die Anbieter von KI-Modellen überbieten sich gegenseitig mit immer neuen Versionen. Dabei ist der Vergleich von KI-Modellen schwieriger als man vielleicht denkt.

    Illustration: KI - ChatBot - ChatGPT - Mobile Apps
    Welche KI-Sprachmodelle werden sich langfristig durchsetzen?
    Quelle: picture alliance / Sipa USA | Jonathan Raa

    OpenAI mit ChatGPT, Gemini von Google, Anthropic mit Claude sowie europäische Firmen wie Aleph Alpha und Mistral liefern sich ein Wettrennen um das beste KI-Modell. Aber wie lassen sich die Modelle vergleichen? Und welches ist das beste?
    KI-Apps auf einem Handydisplay
    Mit großer Mehrheit hat das EU-Parlament für den AI Act gestimmt. Das Gesetz ist das erste seiner Art und sieht etwa die Unterteilung von KI-Systemen in verschiedene Risikogruppen vor.13.03.2024 | 2:29 min

    Wenn ein KI-Sprachmodell ein Auto wäre ...

    Um die Frage zu beantworten, zieht KI-Forscher Nicolas Flores-Herr vom Fraunhofer IAIS als Beispiel die Vergleichbarkeit von Autos heran: "Bei einem SUV hat man im Falle eines Unfalls vielleicht bessere Chancen, unverletzt zu bleiben. Doch beim Fahren durch enge Gassen in der Toskana ist ein Kleinwagen die bessere Wahl."

    So ist das auch bei KI-Sprachmodellen - welches das Beste ist, hängt stark vom Kontext und dem Anwendungszweck ab.

    Nicolas Flores-Herr, KI-Forscher

    Hilfreich sei es, die Frage in drei Schichten zu zerlegen:
    • Erstens verfügen KI-Sprachmodelle über messbare Kennzahlen
    • Zweitens können sie in Leistungstests geprüft werden
    • Entscheidend ist letztlich, wie sie im spezifischen Einsatz abschneiden

    Dr. Nicolas Flores-Herr
    Quelle: Fraunhofer IAIS

    ... ist Teamleiter Conversational AI am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS am Standort in Dresden. Er leitet das Forschungsprojekt "OpenGPT-X", in dem Open-Source KI-Sprachmodelle von Grund auf trainiert werden, um spezifische Anforderungen deutscher und europäischer Unternehmen zu erfüllen.

    Das deutsche Bildungssystem ist enorm unter Druck. Inwieweit der Einsatz von KI im Unterricht da helfen kann - das ist ein Thema, das auf der Bildungsmesse Didacta diskutiert wird.
    Das deutsche Bildungssystem ist enorm unter Druck. Inwieweit der Einsatz von KI im Unterricht da helfen kann - das war Thema auf der Bildungsmesse Didacta.21.02.2024 | 1:49 min

    Quantitative Kennzahlen von KI-Modellen

    Laut Flores-Herr stehen bei den Kennzahlen folgende Fragen im Vordergrund: "Mit wie vielen Tokens wurde das Modell trainiert? Wie viele Parameter besitzt es? Wie groß ist die mögliche Kontextlänge?"

    Informationen zu den Kennzahlen in der Faktenbox:





    Bei den Kennzahlen gilt üblicherweise: Je höher der Wert der Kennzahlen, desto leistungsstarker ist in der Regel das KI-Sprachmodell - das heißt, es kommt mit komplexeren Aufgaben besser zurecht und erledigt Aufgaben mit größerer Präzision. Wichtig sei hierbei aber auch, was genau im Training des KI-Modells passiert sei, sagt Flores-Herr:

    Im Moment ist das wie ein Kochwettbewerb. Welche Zutaten brauche ich für mein Modell? Wie muss ich diesen Zutaten verarbeiten?

    Nicolas Flores-Herr, KI-Forscher

    Neben der Art und Qualität der Trainingsdaten, könne etwa die Reihenfolge, in dem das KI-Modell die Daten erhalten hat, sowie der spezifische Prozess des Trainings entscheidend für seine Leistungsfähigkeit sein, erklärt Flores-Herr. "Da gibt es viele Stellschrauben und jedes Unternehmen geht da seinen eigenen Weg - was da genau passiert, ist häufig nicht wirklich transparent."
    In this photo illustration, a video created by Open AI's newly released text-to-video "Sora" tool plays on a monitor in Washington, DC on February 16, 2024.
    Die Entwickler von ChatGPT haben einen Filmgenerator veröffentlicht. Er heißt Sora und kann aus kurzen Text-Vorgaben realistische Videos erzeugen.16.02.2024 | 1:31 min

    "Benchmarks": Leistungstests für KI-Modelle

    Zudem können Tests, sogenannte "Benchmarks", helfen, KI-Sprachmodelle miteinander zu vergleichen. Diese gab es zum Teil auch schon vor dem 'GPT-Boom' - jetzt werden diese auf die neue Welt der KI-Sprachmodelle angewendet", so Flores-Herr. Die Tests umfassen verschiedene Aufgaben - etwa Textzusammenfassungen, Mathematikaufgaben oder Multiple-Choice-Fragen zu Wissen über die Welt.
    Ein wichtiger Test ist beispielsweise der MMLU (Massive Multi-task Language Understanding), der die generellen Fähigkeiten anhand von Aufgaben aus diversen Bereichen überprüft. Ebenfalls erwähnenswert ist das speziell für große KI-Sprachmodelle entwickelte BIG-bench (Beyond the Imitation Game Benchmark), der mehr als 200 Aufgaben beinhaltet. Zusammengefasst existieren spezifische Tests für einzelne Fachgebiete, wie Medizin oder Jura, die eine gewisse Vergleichbarkeit ermöglichen.

    KI-Modelle: Auch Sprachen und Transparenz entscheidend

    Nach aktuellen "Benchmarks" haben laut Flores-Herr die Modelle ChatGPT 4 von OpenAI und Claude 3 von Anthropic die Nase vorn. "Dennoch muss man bei den Ergebnissen und der Test-Systematik immer sehr genau hinschauen, damit man nicht Äpfel mit Birnen vergleicht." Zudem sei es wichtig, dass künftige Tests die tatsächliche Anwendung der KI-Modelle in der Praxis besser widerspiegeln. Ein weiteres Problem sei zudem die Sprache:

    Wenn ein KI-Modell einen englischsprachigen Test meistert, heißt das nicht notwendigerweise, dass es auch auf deutsch oder französisch sehr gut abschneidet.

    Nicolas Flores-Herr, KI-Forscher

    "Open-Source-Modelle bieten aus meiner Sicht den besten Weg, Transparenz und Verständnis zu fördern", erklärt Flores-Herr. "Deshalb forschen wir bei Fraunhofer an offenen KI-Sprachmodellen."

    Probefahrt: Wie gut passt ein KI-Modell zur Anwendung?

    Zuletzt sei die Beurteilung des besten KI-Sprachmodells eine persönliche Wahl, die stark von der spezifischen Nutzung abhänge, sagt Flores-Herr - genau wie beim Autokauf:

    Ich kann mir ein Dutzend Autos in Prospekten anschauen, aber entscheidend ist am Ende die Probefahrt.

    Nicolas Flores-Herr, KI-Forscher

    Mehr über Künstliche Intelligenz