Inhalt
Überblick über die Herausforderungen und Möglichkeiten der Darstellung von Text in KI-generierten Bildern.
Eine der Anwendungen von KI ist die Erzeugung von Bildern und Designs, die auf natürlicher Sprache basieren, sogenannten Prompts.
Aber was ist, wenn man stattdessen Text in dem Bild oder Design haben möchte? Das wird schwierig! Schau dir an, wie die Ergebnisse oft aussehen und warum KI-Bildgeneratoren den Text verstümmeln. Aber es gibt auch Ausnahmen!
(Letzte Aktualisierung: 10.04.25)Inhaltsverzeichnis und Beispiele
Einleitung | Copilot | Leonardo.ai | Firefly | Stable Diffusion | Dreamstudio | Ideogram | ChatGPT GPT-4o | Reve Image | Microsoft Designer | Canva | Fazit und Ergebnisse | Kommentare
Texte in Bildern und Designs können zum Beispiel Slogans, Namen oder Überschriften sein. Bestimmt hast du es schon einmal versucht und der Text auf dem Bild war verstümmelt oder es gab Rechtschreibfehler. Hier ist ein Beispiel für einen misslungenen Text:
KI-Bild von DALL-E: Text auf Buchcover
Die Darstellung von Texten in KI-generierten Bildern und Designs ist schwierig, da Texte eine gewisse Komplexität aufweisen, die in der Regel nicht von KI-Modellen erfasst werden kann.
Beispielsweise kann die Wahl der Wörter, der Schriftart, der Farbe oder der Position des Textes einen großen Einfluss auf die Botschaft und den Ton des Bildes oder Designs haben.
Texte in Bildern und Designs müssen sowohl mit dem Hintergrund als auch mit der Zielgruppe und der gewünschten Botschaft übereinstimmen. Zum Beispiel muss ein Text in einem Plakat für eine Kampagne anders gestaltet sein als ein Text in einem Comic oder einer Geburtstagskarte. Die KI muss also den Kontext und die Zielgruppe des Bildes oder Designs verstehen und den Text entsprechend generieren.
Ich habe einige KI-Bildgeneratoren getestet und die Ergebnisse kannst du dir hier ansehen. Halte durch, am Ende findest du noch ein paar brauchbare Beispiele.
Die Aufgabe, bzw. der Prompt ist: Erstelle ein Buchcover zum Thema Künstliche Intelligenz. Auf dem Cover der Titel und ein Untertitel, der zum Lesen auffordert.
Das Bild, das ich mit Microsoft Copilot erstellt habe, war zunächst ohne Text. Nach dreimaligem „Überreden“ hat mir Copilot einen Text auf das Cover geschrieben. Allerdings in Englisch. Das Bild selbst ist auch schlechter geworden und sieht wirklich nicht gut aus. Eigentlich erstaunlich, da DALL-E im Hintergrund verwendet werden sollte.
Textqualität: mittelmäßig
Textinhalt: schlecht, da nur englisch
Kreativität: mittelmäßig
Meine Bewertung: ★ ☆ ☆ ☆ ☆
Auch hier wieder der typische Roboterkopf in einem futuristischen Stil. Der dargestellte Text in dem Design ist nicht lesbar. Das Ergebnis unterscheidet sich nicht wesentlich von dem vorherigen Beispiel.
Textqualität: schlecht
Textinhalt: schlecht, nicht lesbar
Kreativität: mittelmäßig
Meine Bewertung: ★ ☆ ☆ ☆ ☆
Eine der schlechtesten Umsetzungen. Ein Buchcover ist nicht zu erkennen. Die Hintergründe und Motive sind die üblichen, wie sie KI-Bildgeneratoren zu dem Thema Künstliche Intelligenz generieren. Kannst du den generierten Text erkennen? Er ist so gut wie nicht lesbar und zudem kryptisch.
Textqualität: schlecht
Textinhalt: schlecht
Kreativität: schlecht
Meine Bewertung: ★ ☆ ☆ ☆ ☆
Mehr darüber erfährst du in meinem Artikel: Adobe Firefly - KI Funktionen
Wie auch bei den bisher genannten KI-Bildgeneratoren ist die Schrift nicht lesbar und es lässt sich vielleicht erahnen, was der Text bedeutet. Es wird ein Buch abgebildet und kein Cover. Die Grafik ist nicht besonders kreativ und könnte auch für einen Roman über den Urlaub an der See herhalten.
Textqualität: schlecht
Textinhalt: schlecht
Kreativität: schlecht
Meine Bewertung: ★ ☆ ☆ ☆ ☆
Mehr über Stable Diffusion kannst du in meinem Artikel nachlesen: Stable Diffusion: So erstellst du eindrucksvolle KI-Bilder
Das Motiv ist, wie so oft, ein Kopf im futuristischen Stil. Also nicht sehr einfallsreich. Der Text ist nicht lesbar und recht klein. Es sieht mehr wie ein Plattencover aus, nicht wie ein Buchcover.
Textqualität: schlecht
Textinhalt: schlecht
Kreativität: mittel
Meine Bewertung: ★ ☆ ☆ ☆ ☆
Ich hatte die Hoffnung schon aufgegeben, dass die KI ein vernünftig aussehendes Buchcover mit dem Text „Künstliche Intelligenz im Alltag“ erstellt. Bis ich Ideogram.ai ausprobiert habe. Eine gelungenere Umsetzung finde ich. Es ist nur ein Buchstabe beim Autor fehlerhaft
Der Text wurde leider teilweise ins Englische übersetzt. Mit etwas Nacharbeit kann dies sicher noch angepasst werden.
Textqualität: gut
Textinhalt: gut, allerdings zum teil in englischer Sprache
Kreativität: gut
Meine Bewertung: ★ ★ ★ ☆ ☆
Wenn du Zugriff auf das Sprachmodell GPT-4o hast, kannst du die „native“ Bilderzeugung der KI nutzen. OpenAI, der Anbieter von ChatGPT, bietet nicht nur DALL-E an, sondern jetzt auch eine neue KI für Bilder. Bilder können mit Sora und ChatGPT erstellt werden. Achte darauf, dass du GPT-4o verwendest. In der kostenlosen Version wird das noch nicht funktionieren, aber das wird sich sicher bald ändern.
Ich finde das Ergebnis wirklich toll. Ab und zu gibt es noch ein paar Schwierigkeiten, z.B. mit dem Buchstaben „ä“, aber das bekommt man mit neuen Versuchen und entsprechenden Prompts in den Griff.
Dass die richtige KI-Bildgenerierung zum Einsatz kommt, merkst du daran, dass es etwas länger dauert, das Bild zu erzeugen. Hier ist das Ergebnis:
Textqualität: gut
Textinhalt: sehr gut
Kreativität: gut
Meine Bewertung: ★ ★ ★ ★ ☆
Reve AI, Inc. ist ein Start-up-Unternehmen mit Sitz in Palo Alto, Kalifornien. Hinter dem Unternehmen steht ein relativ kleines Team. Das erste Produkt des Teams heißt Reve Image. Dabei handelt es sich um ein Text-zu-Bild-Generierungsmodell, das speziell für die Umsetzung detaillierter Anweisungen entwickelt wurde. Ziel ist es, nicht nur ansprechende Bilder zu erzeugen, sondern auch die Typografie in die Bildkomposition zu integrieren.
Und ich finde, das ist gelungen. Mein Test bestätigte diese Aussagen. Die Schrift ist gut lesbar und die Bildqualität ist gut.
Textqualität: gut
Textinhalt: gut, manchmal auch in englischer Sprache
Kreativität: gut
Meine Bewertung: ★ ★ ★ ★ ☆
Wie wir an den bisher genannten Beispielen sehen können, sind die KI-Bild-Generatoren nicht dafür geeignet einen vernünftigen Text innerhalb eines Bildes darzustellen. Ausnahme ist hier ideogram.ai, allerdings mit Abstrichen.
Also müssen wir wohl selbst etwas Hand anlegen und das Grundgerüst durch die KI erstellen lassen. Wie das geht, erfährst du jetzt.
Bei dem KI-Designer von Microsoft lässt du dir einen Vorschlag erstellen. Du gibst wie gewohnt deinen Text, bzw. Prompt ein. Als Ergebnis erhältst du einige Designvorschläge.
Du wählst eines der vorgeschlagenen Designs aus und kannst dies anschließend weiterbearbeiten. Du hast also den Text selbst in der Hand und der Designer übernimmt die Gestaltung des Bildes. Zusätzlich gibt es die Option davon Varianten zu erstellen.
Die Kreativität hält sich auch in Grenzen und wir haben solche Abbildungen schon hunderte Male im Internet gesehen. Und so schaut es dann aus:
Textqualität: sehr gut
Textinhalt: gut
Kreativität: mittel
Meine Bewertung: ★ ★ ★ ☆ ☆
Eine Übersicht über die Funktionen und die Einrichtung findest du in meinem Artikel: Microsoft Designer mit künstlicher Intelligenz
Mein Favorit ist Canva. Hier hast du viele Gestaltungsmerkmale zur Auswahl und zusätzlich einige KI-Apps, die du einbinden kannst. Du wählst aus einer Menge an Vorlagen dein Design aus und passt es entsprechend an.
Die Bilder dazu kannst du auswählen oder dir von der KI anfertigen lassen. Ich muss allerdings erwähnen, dass die Hauptarbeit bei dir liegt und die KI nur ein wenig unterstützt.
Zugegeben, das Titelbild ist auch nicht sehr einfallsreich, aber die Schrift hat ein gewisses Etwas.
Textqualität: sehr gut
Textinhalt: gut
Kreativität: gut
Meine Bewertung: ★ ★ ★ ★ ☆
Wenn du mehr über Canva und die KI-Bilderstellung erfahren möchtest, findest du ausführliche Informationen in meinem Artikel: Canva Dream Lab: KI-Bilder erzeugen und bearbeiten
Ich glaube, dass die KI-Bildgeneratoren noch nicht so weit sind, dass sie Text vernünftig in Bilder und Designs integrieren können. Das liegt größtenteils an der Technologie, mit der die KI-Bilder erzeugt werden. Eine Ausnahme ist die neue Bildgenerierung von ChatGPT GPT-4o. Mit dieser Technologie ist es meiner Meinung nach erstmals möglich, auch gute Texte in die generierten Bilder zu bekommen.
Vereinfacht gesagt, basieren die KI-Bildgeneratoren auf einer Methode des maschinellen Lernens, auch generatives Modell genannt. Dieses Modell lernt aus einer großen Menge von Daten. In unserem Fall sind das zum größten Teil Bilder und Texte, die diese Bilder beschreiben.
Grundlagen, die verwendet werden, sind verschiedene Quellen, wie beispielsweise Bilder im Internet, öffentliche Bildarchiven oder Kunstwerke. Je mehr und je vielfältiger die Daten sind, desto besser kann das Modell lernen, wie Bilder aussehen und wie sie mit Worten beschrieben werden können.
Das Problem ist nun, dass das generative Modell nicht nur lernt, wie Bilder und Texte aussehen, sondern auch versucht, neue Bilder und Texte zu erzeugen, die es noch nie zuvor gab.
Das Modell muss nicht nur die visuellen Elemente eines Bildes berücksichtigen, sondern auch die logische Struktur und den semantischen Sinn des Textes. Außerdem muss es darauf achten, dass der Text auf dem Bild gut lesbar, sichtbar und ansprechend ist.
Die heutigen KI-Bildgeneratoren sind noch nicht in der Lage, all diese Dinge zu beherrschen (Ausnahme: GPT-4o, wie bereits erwähnt). Sie machen häufig Fehler bei der Textgenerierung, wie z.B. falsche Rechtschreibung, Grammatik, Formatierung oder Positionierung. Oft ergibt der generierte Text keinen Sinn oder passt nicht zum Bildkontext.
Das liegt daran, dass das Modell die Bedeutung und den Zweck des Textes nicht wirklich versteht, sondern nur versucht, ihn aus statistischen Mustern in den Daten nachzuahmen.
Es bleibt dir also nichts anderes übrig, als den Text selbst zu erstellen. Das Design kann, wie wir gesehen haben, von der KI erstellt werden. Ich finde es auch gut, dass die menschliche Kreativität hier gefragt ist und nicht alles der KI überlassen wird.
Was meinst du zu diesem Thema und hast du eine ähnliche Erfahrung gemacht? Schreib es in die Kommentare. Ich würde mich freuen
Canva Dream Lab: KI-Bilder erzeugen und bearbeiten
Einführung in die Erstellung von KI-Bildern mit Canva Dream Lab. Tipps und Tricks. Detaillierte ...
Weiter lesen ..
KI: generativer Füllung von Adobe
Die generative Füllung von Adobe verändert die Bildbearbeitung. Ein paar Beispiele, was du damit machen ...
Weiter lesen ..
Bing Image Creator - KI-Bilder erstellen
Mit dem Bing Image Creator kannst du eindrucksvolle KI-Bilder erzeugen. Wie du das Tool kostenlos nutzt erfährst du in meinem ...
Weiter lesen ..
Fragen, Fragen, Fragen
Antworten auf wirklich wichtige Fragen des Lebens. Beantwortet von meinem kleinen, depressiven KI-Roboter:
Ich unterhalte mich mit Freunden und plötzlich taucht eine Frage auf. Jeder greift zum Handy und sucht nach einer Antwort...
Susi
vor 2 Monaten
Hallo Burkhard, Deine Seite ist wirklich toll. Danke für die Erläuterung, jetzt weiß ich wenigstens warum es mit meinem Text einfach nicht klappt ;-) Ich hoffe, dass die KI hier bald bessere Entwicklungen schafft ! Liebe Grüße Susi
Burkhard
vor 2 Monaten
Hallo Susi, schön, dass dir der Artikel geholfen hat. Ich denke, mit der Zeit wird es dann auch mit den Texten in KI-Bildern klappen.
Heike Altindag
vor 4 Monaten
Vielen Dank für diesen aufschlussreichen Artikel. Nun wird einem einiges klar. Auch das noch einiges kommen wird in Bezug auf KI.
Burkhard
vor 4 Monaten
Da hast du recht, da wird sich noch vieles verändern und neu hinzukommen.
Marco
vor 9 Monaten
Danke für diesen Beitrag! Die Erklärung für die (mangelnde) Qualität der Texte ist sehr hilfreich. Gibt es eine Möglichkeit, Bilder ohne Text zu erstellen? Bei mir funktioniert das nicht einmal, wenn ich es explizit in den Prompt schriebe, zumindest bei Dall-E nicht ...
Burkhard
vor 9 Monaten
Das geht mir auch so, dass die Anweisung "schreibe keinen Text" ignoriert wird. Da hilft nur, den Prompt komplett zu ändern und zu überlegen, welche Anweisung die KI wohl genommen hat, um einen Text hinzuzufügen.
LOST
vor 11 Monaten
Hallo, ich war schon eine Weile unterwegs herauszubekommen warum die Grafiken teilweise sehr stimmig und optisch teilweise bombastisch sind,aber der Name auf der Geburtstagstorte nicht einmal vernünftig geschrieben wird.Ich dachte es benötigt eine spezielle Schreibweise um sie fehlerfrei darzustellen,manchmal klappt es ja nach der 20ten Torte :-) .Deine Ausführungen haben mir sehr geholfen,Danke
Burkhard
vor 11 Monaten
Es freut mich, dass der Artikel dir geholfen hat. Viel Erfolg weiterhin bei deinen KI-Bildern und den Texten.