Welches KI-Sprachmodell ist das beste?

Wettrennen der Tech-Firmen:Welches KI-Sprachmodell ist das beste?

von David Metzmacher

30.03.2024 | 15:58

Die Anbieter von KI-Modellen überbieten sich gegenseitig mit immer neuen Versionen. Dabei ist der Vergleich von KI-Modellen schwieriger als man vielleicht denkt.

Illustration: KI - ChatBot - ChatGPT - Mobile Apps

Welche KI-Sprachmodelle werden sich langfristig durchsetzen?

Quelle: picture alliance / Sipa USA | Jonathan Raa

OpenAI mit ChatGPT, Gemini von Google, Anthropic mit Claude sowie europäische Firmen wie Aleph Alpha und Mistral liefern sich ein Wettrennen um das beste KI-Modell. Aber wie lassen sich die Modelle vergleichen? Und welches ist das beste?

Mit großer Mehrheit hat das EU-Parlament für den AI Act gestimmt. Das Gesetz ist das erste seiner Art und sieht etwa die Unterteilung von KI-Systemen in verschiedene Risikogruppen vor.13.03.2024 | 2:29 min

Wenn ein KI-Sprachmodell ein Auto wäre ...

Um die Frage zu beantworten, zieht KI-Forscher Nicolas Flores-Herr vom Fraunhofer IAIS als Beispiel die Vergleichbarkeit von Autos heran: "Bei einem SUV hat man im Falle eines Unfalls vielleicht bessere Chancen, unverletzt zu bleiben. Doch beim Fahren durch enge Gassen in der Toskana ist ein Kleinwagen die bessere Wahl."

So ist das auch bei KI-Sprachmodellen - welches das Beste ist, hängt stark vom Kontext und dem Anwendungszweck ab.

Nicolas Flores-Herr, KI-Forscher

So kann Künstliche Intelligenz im Alltag unterstützen

Hilfreich sei es, die Frage in drei Schichten zu zerlegen:

Erstens verfügen KI-Sprachmodelle über messbare Kennzahlen
Zweitens können sie in Leistungstests geprüft werden
Entscheidend ist letztlich, wie sie im spezifischen Einsatz abschneiden

Quelle: Fraunhofer IAIS

... ist Teamleiter Conversational AI am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS am Standort in Dresden. Er leitet das Forschungsprojekt "OpenGPT-X", in dem Open-Source KI-Sprachmodelle von Grund auf trainiert werden, um spezifische Anforderungen deutscher und europäischer Unternehmen zu erfüllen.

Das deutsche Bildungssystem ist enorm unter Druck. Inwieweit der Einsatz von KI im Unterricht da helfen kann - das ist ein Thema, das auf der Bildungsmesse Didacta diskutiert wird.

Das deutsche Bildungssystem ist enorm unter Druck. Inwieweit der Einsatz von KI im Unterricht da helfen kann - das war Thema auf der Bildungsmesse Didacta.21.02.2024 | 1:49 min

Quantitative Kennzahlen von KI-Modellen

Laut Flores-Herr stehen bei den Kennzahlen folgende Fragen im Vordergrund: "Mit wie vielen Tokens wurde das Modell trainiert? Wie viele Parameter besitzt es? Wie groß ist die mögliche Kontextlänge?"

Informationen zu den Kennzahlen in der Faktenbox:

Ein Token ist die kleinste Informationseinheit, die ein KI-Sprachmodell verarbeitet, sowohl beim Input - also dem Training des Modells - als auch beim Output, wie beispielsweise der Antwort eines Chatbots. Tokens können Wörter, Silben oder sogar einzelne Buchstaben sein.

Ein Parameter ist eine Variable im KI-Modell, deren Wert unter anderem während des Modelltrainings auf Basis der Trainingsdaten berechnet wird. Auf Basis der Parameter trifft das Modell Entscheidungen oder macht Vorrausagen.

Die Anzahl der Parameter ist ein Wert, der grundsätzlich die Leistungsfähigkeit eines Modells widerspiegelt. Je mehr Parameter, desto eher ist ein KI-Sprachmodell in der Lage, komplexe Zusammenhänge zu beurteilen. Die Zahl der Parameter beeinflusst den Rechenaufwand, die Geschwindigkeit sowie die Präzision der Ergebnisse.

Die Kontextlänge definiert, wie viele Informationen - gemessen in Tokens - ein Modell gleichzeitig verarbeiten kann. Während die Mehrheit der großen KI-Sprachmodelle problemlos mit Texten von der Länge einiger weniger DIN-A4-Seiten umgehen können, stoßen Modelle mit kleiner Kontextlänge bei umfangreicheren Texten, wie einem Buchkapitel oder gar einem ganzen Buch, an ihre Grenzen und können diese nicht mehr im Rahmen einer einzigen Anfrage verarbeiten. Aus diesem Grund werden Modelle mit großer Kontextlänge entwickelt.

Bei den Kennzahlen gilt üblicherweise: Je höher der Wert der Kennzahlen, desto leistungsstarker ist in der Regel das KI-Sprachmodell - das heißt, es kommt mit komplexeren Aufgaben besser zurecht und erledigt Aufgaben mit größerer Präzision. Wichtig sei hierbei aber auch, was genau im Training des KI-Modells passiert sei, sagt Flores-Herr:

Im Moment ist das wie ein Kochwettbewerb. Welche Zutaten brauche ich für mein Modell? Wie muss ich diesen Zutaten verarbeiten?

Nicolas Flores-Herr, KI-Forscher

Neben der Art und Qualität der Trainingsdaten, könne etwa die Reihenfolge, in dem das KI-Modell die Daten erhalten hat, sowie der spezifische Prozess des Trainings entscheidend für seine Leistungsfähigkeit sein, erklärt Flores-Herr. "Da gibt es viele Stellschrauben und jedes Unternehmen geht da seinen eigenen Weg - was da genau passiert, ist häufig nicht wirklich transparent."

Urheberrecht und Trainingsdaten: Was muss man bei KI-Bildern beachten?

In this photo illustration, a video created by Open AI's newly released text-to-video "Sora" tool plays on a monitor in Washington, DC on February 16, 2024.

Die Entwickler von ChatGPT haben einen Filmgenerator veröffentlicht. Er heißt Sora und kann aus kurzen Text-Vorgaben realistische Videos erzeugen.16.02.2024 | 1:31 min

"Benchmarks": Leistungstests für KI-Modelle

Zudem können Tests, sogenannte "Benchmarks", helfen, KI-Sprachmodelle miteinander zu vergleichen. Diese gab es zum Teil auch schon vor dem 'GPT-Boom' - jetzt werden diese auf die neue Welt der KI-Sprachmodelle angewendet", so Flores-Herr. Die Tests umfassen verschiedene Aufgaben - etwa Textzusammenfassungen, Mathematikaufgaben oder Multiple-Choice-Fragen zu Wissen über die Welt.

Ein wichtiger Test ist beispielsweise der MMLU (Massive Multi-task Language Understanding), der die generellen Fähigkeiten anhand von Aufgaben aus diversen Bereichen überprüft. Ebenfalls erwähnenswert ist das speziell für große KI-Sprachmodelle entwickelte BIG-bench (Beyond the Imitation Game Benchmark), der mehr als 200 Aufgaben beinhaltet. Zusammengefasst existieren spezifische Tests für einzelne Fachgebiete, wie Medizin oder Jura, die eine gewisse Vergleichbarkeit ermöglichen.

KI-Modelle: Auch Sprachen und Transparenz entscheidend

Nach aktuellen "Benchmarks" haben laut Flores-Herr die Modelle ChatGPT 4 von OpenAI und Claude 3 von Anthropic die Nase vorn. "Dennoch muss man bei den Ergebnissen und der Test-Systematik immer sehr genau hinschauen, damit man nicht Äpfel mit Birnen vergleicht." Zudem sei es wichtig, dass künftige Tests die tatsächliche Anwendung der KI-Modelle in der Praxis besser widerspiegeln. Ein weiteres Problem sei zudem die Sprache:

Wenn ein KI-Modell einen englischsprachigen Test meistert, heißt das nicht notwendigerweise, dass es auch auf deutsch oder französisch sehr gut abschneidet.

Nicolas Flores-Herr, KI-Forscher

"Open-Source-Modelle bieten aus meiner Sicht den besten Weg, Transparenz und Verständnis zu fördern", erklärt Flores-Herr. "Deshalb forschen wir bei Fraunhofer an offenen KI-Sprachmodellen."

Probefahrt: Wie gut passt ein KI-Modell zur Anwendung?

Zuletzt sei die Beurteilung des besten KI-Sprachmodells eine persönliche Wahl, die stark von der spezifischen Nutzung abhänge, sagt Flores-Herr - genau wie beim Autokauf: