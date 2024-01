Bilder von Armbanduhren generiert mit den KI-Bildgeneratoren DALL-E, Lexica und Midjourney. Quelle: David Metzmacher

Bildgeneratoren mit Künstlicher Intelligenz wie Midjourney, DALL-E, Stable Diffusion oder Lexica erlauben es Nutzern auf Knopfdruck mit kurzen Texten gänzlich neue Bilder zu generieren . Das kann viel Spaß machen und kann Kreativen die Arbeit erleichtern. Doch bei gewissen Aufgaben geraten die Modelle teils schnell an ihre Grenzen. Auch Fragen zum Urheberrecht stehen im Raum.

Warum es bei KI-Uhren fast immer 10.10 Uhr ist

Generiere ein Bild einer analogen Armbanduhr, die die Uhrzeit 15.35 Uhr zeigt. Prompt für den Selbsttest

Auf diesen kurzen Prompt, so heißen die Befehle für generative KI-Modelle, spucken sowohl ChatGPT , das in der Bezahlvariante den Bildgenerator DALL-E nutzt, als auch Midjourney (kostenpflichtig) sowie der Dienst Lexica (kostenlos) innerhalb einer halben Minute Ergebnisse aus.

DALL-E "Generiere ein Bild einer analogen Armbanduhr, die die Uhrzeit 15.35 Uhr zeigt." Quelle: Screenshot / David Metzmacher / DALL-E

Obwohl die Bilder auf den ersten Blick ansprechend wirken, zeigen sich bei genauerem Hinsehen gleich mehrere Probleme. Teilweise sind die Indikatoren der Uhren nicht korrekt. Zudem zeigen sie nicht die gewünschte Uhrzeit 15.25 Uhr, sondern meist eine andere: ungefähr 10.10 Uhr.

Zwar werden bei Wiederholung mit dem gleichen Prompt gelegentlich auch andere Uhrzeiten generiert, aber die gewünschte Uhrzeit ist nie dabei - auch bei Variation des Prompts etwa formuliert auf englisch oder bei Angabe bestimmter Positionen für die Zeiger - das Ergebnis bleibt unbefriedigend.

Fazit des kleinen Selbsttests: Die gewünschte Uhrzeit können die KI-Generatoren offenbar nicht erzeugen, viel mehr scheinen sie eine Uhrzeit besonders zu mögen: 10.10 Uhr. Warum ist das so?

Trainingsdaten: Uhren im Netz ticken alle gleich

Die Ursache für das Problem liege in den Daten, die die KI-Bildgeneratoren zum Training erhalten haben, sagt Kristian Kersting, Professor für Künstliche Intelligenz und Maschinelles Lernen an der TU Darmstadt. Suche man etwa im Internet nach dem englischen Begriff "analogue watch” so erschienen am häufigsten Uhren mit der Uhrzeit 10.10 Uhr.

"In der Uhrenindustrie ist es üblich, Uhren für Werbezwecke auf 10.10 Uhr einzustellen, weil diese Zeitstellung als ästhetisch ansprechend gilt und das Logo der Marke meist nicht verdeckt" erklärt Kai Pascal Beerlink, Referent Künstliche Intelligenz beim Digitalverband Bitkom.

Daher lernt die KI, dass dies die 'normale' Zeitdarstellung ist. Kai Pascal Beerlink, Referent Künstliche Intelligenz beim Digitalverband Bitkom

Bild-Text-Paare trainieren den Modellen eine "eigene Wirklichkeit"

Um das zu lernen, was sie können, benötigen die KI-Modelle eine große Zahl von Bild-Text-Paaren, also Bilder mit passendem Beschreibungstext. Eine Erklärung für das Phänomen könnte also sein, "dass die die meisten Datensätze zum Trainieren der Generatoren zufällige Bilder und Bildbeschreibungen aus dem Netz benutzten", sagt Kersting.

Die meisten Text-zu-Bild-Generatoren haben kein mechanistisches bzw. kausales 'Verständnis' der Welt. Sie bilden statistische Korrelationen zwischen Texten und Bildern ab. Kristian Kersting, Professor für Künstliche Intelligenz und Maschinelles Lernen an der TU Darmstadt

Neben Uhrzeiten macht etwa auch die Darstellung von Händen zum Teil Probleme. Schwierig wird es auch bei spezifischen Text-Zügen in KI-erzeugten Bildern. Die Integration von Text in Bilder sei eine komplexe Aufgabe für KI-Bildgeneratoren, sagt Bitkom-Referent Beerlink. Denn sie müssten nicht nur den Text korrekt generieren, sondern auch den Kontext des Bildes verstehen und den Text entsprechend in das Bild einbetten.

Dies erfordert ein tiefes Verständnis von Sprache und Bildkomposition, was einige aktuelle KI-Modelle noch herausfordert. Kai Pascal Beerlink, Referent Künstliche Intelligenz beim Digitalverband Bitkom

Woher kommen die Trainingsdaten für DALL-E, Midjourney und Co.?

Eine noch ungeklärte Frage im Kontext der mit KI generierten Bilder ist das Urheberrecht. Zwar liegt das Recht an der Nutzung der erzeugten Bilder etwa im Fall von DALL-E und Midjourney komplett beim Nutzer. Doch die Bilder und Texte, die in ihrer Summe das Training der KI-Generatoren möglich gemacht haben, haben schließlich auch Urheber . Was ist mit ihnen?

Genauere Informationen darüber, welche Bilder und Texte für das Training von KI-Bildgeneratoren verwendet wurden, sind häufig nicht bekannt. Doch es wird davon ausgegangen, dass alle Modelle im Netz verfügbare Bilder zum Training ihrer Modelle nutzen - ohne deren Schöpfer um Erlaubnis zu fragen.

Daher fordern etwa Grafiker und Fotografen aber auch KI-Ethiker Regelungen der Vergütung.

Deutscher Kulturrat fordert klare Regeln für KI-Anbieter

Kersting räumt ein, dass Copyright und Vermarktungsrechte unter Umständen neu gefasst werden müssten. Der Digitalverband Bitkom hingegen hält die bestehenden Regeln für ausreichend. "Weitgehende zusätzliche Regelungen würden eine Barriere für Innovation darstellen", so Beerlink.

"Wir haben eine Technologie, die zu einem nicht unerheblichen Teil das, was im Kulturbereich produziert wird, teilweise ergänzen oder komplett ersetzen kann ", äußerte sich dagegen der Geschäftsführer des Deutschen Kulturrats Olaf Zimmermann Anfang Januar besorgt in der "Augsburger Allgemeinen". Umso wichtiger seien aus wirtschaftlicher Sicht des Kulturbetriebs klare Regeln für Anbieter von KI-Anwendungen.