Wettrennen der Tech-Firmen:Welches KI-Sprachmodell ist das beste?
von David Metzmacher
|
Die Anbieter von KI-Modellen überbieten sich gegenseitig mit immer neuen Versionen. Dabei ist der Vergleich von KI-Modellen schwieriger als man vielleicht denkt.
Welche KI-Sprachmodelle werden sich langfristig durchsetzen?
Quelle: picture alliance / Sipa USA | Jonathan Raa
OpenAI mit ChatGPT, Gemini von Google, Anthropic mit Claude sowie europäische Firmen wie Aleph Alpha und Mistral liefern sich ein Wettrennen um das beste KI-Modell. Aber wie lassen sich die Modelle vergleichen? Und welches ist das beste?
Mit großer Mehrheit hat das EU-Parlament für den AI Act gestimmt. Das Gesetz ist das erste seiner Art und sieht etwa die Unterteilung von KI-Systemen in verschiedene Risikogruppen vor.13.03.2024 | 2:29 min
Wenn ein KI-Sprachmodell ein Auto wäre ...
Um die Frage zu beantworten, zieht KI-Forscher Nicolas Flores-Herr vom Fraunhofer IAIS als Beispiel die Vergleichbarkeit von Autos heran: "Bei einem SUV hat man im Falle eines Unfalls vielleicht bessere Chancen, unverletzt zu bleiben. Doch beim Fahren durch enge Gassen in der Toskana ist ein Kleinwagen die bessere Wahl."
Hilfreich sei es, die Frage in drei Schichten zu zerlegen:
- Erstens verfügen KI-Sprachmodelle über messbare Kennzahlen
- Zweitens können sie in Leistungstests geprüft werden
- Entscheidend ist letztlich, wie sie im spezifischen Einsatz abschneiden
Quelle: Fraunhofer IAIS
... ist Teamleiter Conversational AI am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS am Standort in Dresden. Er leitet das Forschungsprojekt "OpenGPT-X", in dem Open-Source KI-Sprachmodelle von Grund auf trainiert werden, um spezifische Anforderungen deutscher und europäischer Unternehmen zu erfüllen.
Das deutsche Bildungssystem ist enorm unter Druck. Inwieweit der Einsatz von KI im Unterricht da helfen kann - das war Thema auf der Bildungsmesse Didacta.21.02.2024 | 1:49 min
Quantitative Kennzahlen von KI-Modellen
Laut Flores-Herr stehen bei den Kennzahlen folgende Fragen im Vordergrund: "Mit wie vielen Tokens wurde das Modell trainiert? Wie viele Parameter besitzt es? Wie groß ist die mögliche Kontextlänge?"
Informationen zu den Kennzahlen in der Faktenbox:
Ein Token ist die kleinste Informationseinheit, die ein KI-Sprachmodell verarbeitet, sowohl beim Input - also dem Training des Modells - als auch beim Output, wie beispielsweise der Antwort eines Chatbots. Tokens können Wörter, Silben oder sogar einzelne Buchstaben sein.
Ein Parameter ist eine Variable im KI-Modell, deren Wert unter anderem während des Modelltrainings auf Basis der Trainingsdaten berechnet wird. Auf Basis der Parameter trifft das Modell Entscheidungen oder macht Vorrausagen.
Die Anzahl der Parameter ist ein Wert, der grundsätzlich die Leistungsfähigkeit eines Modells widerspiegelt. Je mehr Parameter, desto eher ist ein KI-Sprachmodell in der Lage, komplexe Zusammenhänge zu beurteilen. Die Zahl der Parameter beeinflusst den Rechenaufwand, die Geschwindigkeit sowie die Präzision der Ergebnisse.
Die Kontextlänge definiert, wie viele Informationen - gemessen in Tokens - ein Modell gleichzeitig verarbeiten kann. Während die Mehrheit der großen KI-Sprachmodelle problemlos mit Texten von der Länge einiger weniger DIN-A4-Seiten umgehen können, stoßen Modelle mit kleiner Kontextlänge bei umfangreicheren Texten, wie einem Buchkapitel oder gar einem ganzen Buch, an ihre Grenzen und können diese nicht mehr im Rahmen einer einzigen Anfrage verarbeiten. Aus diesem Grund werden Modelle mit großer Kontextlänge entwickelt.
Bei den Kennzahlen gilt üblicherweise: Je höher der Wert der Kennzahlen, desto leistungsstarker ist in der Regel das KI-Sprachmodell - das heißt, es kommt mit komplexeren Aufgaben besser zurecht und erledigt Aufgaben mit größerer Präzision. Wichtig sei hierbei aber auch, was genau im Training des KI-Modells passiert sei, sagt Flores-Herr:
Neben der Art und Qualität der Trainingsdaten, könne etwa die Reihenfolge, in dem das KI-Modell die Daten erhalten hat, sowie der spezifische Prozess des Trainings entscheidend für seine Leistungsfähigkeit sein, erklärt Flores-Herr. "Da gibt es viele Stellschrauben und jedes Unternehmen geht da seinen eigenen Weg - was da genau passiert, ist häufig nicht wirklich transparent."
- Urheberrecht und Trainingsdaten: Was muss man bei KI-Bildern beachten?
Die Entwickler von ChatGPT haben einen Filmgenerator veröffentlicht. Er heißt Sora und kann aus kurzen Text-Vorgaben realistische Videos erzeugen.16.02.2024 | 1:31 min
"Benchmarks": Leistungstests für KI-Modelle
Zudem können Tests, sogenannte "Benchmarks", helfen, KI-Sprachmodelle miteinander zu vergleichen. Diese gab es zum Teil auch schon vor dem 'GPT-Boom' - jetzt werden diese auf die neue Welt der KI-Sprachmodelle angewendet", so Flores-Herr. Die Tests umfassen verschiedene Aufgaben - etwa Textzusammenfassungen, Mathematikaufgaben oder Multiple-Choice-Fragen zu Wissen über die Welt.
Ein wichtiger Test ist beispielsweise der MMLU (Massive Multi-task Language Understanding), der die generellen Fähigkeiten anhand von Aufgaben aus diversen Bereichen überprüft. Ebenfalls erwähnenswert ist das speziell für große KI-Sprachmodelle entwickelte BIG-bench (Beyond the Imitation Game Benchmark), der mehr als 200 Aufgaben beinhaltet. Zusammengefasst existieren spezifische Tests für einzelne Fachgebiete, wie Medizin oder Jura, die eine gewisse Vergleichbarkeit ermöglichen.
KI-Modelle: Auch Sprachen und Transparenz entscheidend
Nach aktuellen "Benchmarks" haben laut Flores-Herr die Modelle ChatGPT 4 von OpenAI und Claude 3 von Anthropic die Nase vorn. "Dennoch muss man bei den Ergebnissen und der Test-Systematik immer sehr genau hinschauen, damit man nicht Äpfel mit Birnen vergleicht." Zudem sei es wichtig, dass künftige Tests die tatsächliche Anwendung der KI-Modelle in der Praxis besser widerspiegeln. Ein weiteres Problem sei zudem die Sprache:
"Open-Source-Modelle bieten aus meiner Sicht den besten Weg, Transparenz und Verständnis zu fördern", erklärt Flores-Herr. "Deshalb forschen wir bei Fraunhofer an offenen KI-Sprachmodellen."
Probefahrt: Wie gut passt ein KI-Modell zur Anwendung?
Zuletzt sei die Beurteilung des besten KI-Sprachmodells eine persönliche Wahl, die stark von der spezifischen Nutzung abhänge, sagt Flores-Herr - genau wie beim Autokauf:
Mehr über Künstliche Intelligenz
FAQ
Cybersicherheit:KI als Waffe: Steigt die Hacker-Gefahr?
von David Metzmacher
Bezahldienstleister Klarna:Wo KI die Arbeit von Hunderten Menschen macht
von Sina Mainitz
FAQ