Inhalt
In diesem Blogbeitrag erfährst du vieles über die Kombination von ChatGPT und DALL-E 3. Ich zeige dir anhand von Beispielen, wie du kreative Bilder generieren kannst und was dabei zu berücksichtigen ist. Die Verknüpfung dieser beiden KI-Modelle ist besonders interessant, weil sie die Textverständnis-Fähigkeiten von ChatGPT mit der Bildgenerierung von DALL-E 3 verbindet und meiner Meinung nach zu eindrucksvollen Ergebnissen führt. Mich hat diese Art der Bildgenerierung wirklich beeindruckt. Doch schau selbst und vor allen Dingen probiere es einmal aus.
(Letzte Aktualisierung: 03.09.24)Inhaltsverzeichnis
DALL-E 3 aktivieren | Bilder generieren | Bilder anpassen | Variationen | Format ändern | Wissenswertes | Kommentare
Wenn du mit ChatGPT und DALL-E 3 KI-generierte Bilder erstellen möchtest, gibt es einige Dinge, die du beachten solltest. Zunächst einmal ist diese Funktion nur in der kostenpflichtigen Version von ChatGPT verfügbar. Wenn du diese nutzt, kannst du sofort loslegen.
Öffne hierzu einen Chat und gib als Text ein, dass du ein Bild generiert werden soll. Fertig. Zusätzlich zu dieser Möglichkeit, kannst du aber auch ein sogenanntes GPT auswählen. Kurz gesagt, ist das eine spezialisierte Version von ChatGPT, das sich auf die Erstellung von Bildern konzentriert.
Das GPT DALL-E wählst du über den Punkt „Explore“ oben links aus. Scrolle dann ein wenig nach unten und wähle „DALL-E“ von OpenAI.
ChatGPT schreibt, dass es einige Vorteile gibt, wenn du das entsprechende GPT wählst. Ich bin mir da aber nicht so sicher, dass das alles stimmt. Es ist aber auch kein Nachteil, das zu so zu nutzen.
Das spezialisierte GPT, in diesem Fall DALL-E, ist für bestimmte Aufgaben oder Anwendungsfälle optimiert. Im Gegensatz zum allgemeinen ChatGPT, das für eine breite Palette von Themen und Gesprächsarten konzipiert ist. Das GPT DALL-E konzentriert sich auf die Erstellung und Bearbeitung von Bildern basierend auf Textbeschreibungen.
Laut ChatGPT gibt es spezifische Fertigkeiten und Einschränkungen, die sich auf die Erzeugung und Modifikation von Bildern beziehen. Diese sollen über das Standard-ChatGPT hinausgehen.
Es werden Richtlinien beachtet, um sicherzustellen, dass die generierten Bilder ethisch und rechtlich unbedenklich sind.
Die Antworten und Fähigkeiten sind im Vergleich zum allgemeinen ChatGPT begrenzter, da das GPT auf den Bereich der Bildgenerierung spezialisiert ist.
Während ChatGPT ein Sprachmodell ist und DALL-E 3 ein Bildgenerator, fragst du dich bestimmt, warum du beides gleichzeitig nutzen solltest. Die Antwort ist nicht so einfach. Ich zeige dir anhand von Beispielen, was du mit der Kombination von ChatGPT und DALL-E 3 erreichen kannst und wie die Bilder ausschauen. Mach dir selbst ein Bild. Ich bin jedenfalls von dieser Möglichkeit der Bildgenerierung begeistert.
Fangen wir mit einem Beispiel an. Es soll ein Stimmungsbild von einem Strand werden. Danach verfeinern wir das Bild und passen es an. Ich beginne mit der Texteingabe, dem sogenannten Prompt.
Erstelle ein Bild von einem Strand. Strandkörbe und Menschen, die im Meer baden. Sommerstimmung.
Du bekommst jetzt eine Auswahl von vier verschiedenen Bildern.
ChatGPT und DALL-E 3 Strandbilder
Dabei hat ChatGPT deinen Prompt an DALL-E 3 weitergegeben. Allerdings nicht in der gleichen Formulierung. ChatGPT hat den Text „kreativ“ verändert. Allerdings nicht mit der gleichen Formulierung. Was ChatGPT geschrieben hat, erfährst du, wenn du auf eines der Bilder klickst.
Ich möchte nun das erste Bild meinen Vorstellungen anpassen. Hierzu schaue ich mir zuerst einmal an, welche Texteingabe bzw. Prompt ChatGPT verwendet hat. In diesem Beispiel ist das der folgende Text. Bei mir wurde er in englischer Sprache angezeigt und ich habe ihn übersetzt.
Foto eines Sandstrandes mit strahlend blauem Himmel über dem Wasser. Mehrere Strandkörbe stehen verstreut am Ufer. Ein paar Menschen unterschiedlicher Herkunft und Geschlechts schwimmen vergnügt im glitzernden Meerwasser und sorgen für eine lebhafte Sommeratmosphäre.
DALL-E 3 hat die Tendenz, die Bilder häufig comicartig darzustellen. Wenn du ein realistischeres Bild erzeugen willst, wird im Internet oftmals empfohlen, das Wort „photorealistic“ einzusetzen. In meinem Beispiel konnte ich allerdings keine wesentlichen Veränderungen feststellen.
Du kannst dich auf die vier Bilder beziehen. Sie sind von eins bis vier nummeriert. Oben links die Nummer eins und so weiter. Ich möchte nun eine Abendstimmung und den Sonnenuntergang in das erste Bild einfügen. Dazu gebe ich folgenden Text ein:
Ändere bitte das erste Bild: Sonnenuntergang und Abendstimmung.
Und tatsächlich hat sich das Bild entsprechend verändert und gefällt mir sehr gut.
Links das erste Bild und rechts die geänderte Version.
Jedes erzeugte Bild hat eine sogenannte „gen_id“. Mit Hilfe dieser ID kannst du Variationen erzeugen lassen. Intern benutzt ChatGPT wahrscheinlich diese ID, wenn du dich auf das erste oder zweite Bild beziehst. Sicherheitshalber kannst du die gen_id aber auch eingeben.
Schreibe einfach nach dem Erzeugen der Bilder: „Kannst du mir die gen_id der Bilder sagen?“. ChatGPT nennt dir dann die IDs. Nun erzeugst du die Variationen. Z.B. durch den Prompt: „Bitte nutze die gen_id xxx und erstelle das Bild in einem kalten Blauton“. Hier sind die Ergebnisse:
Die Bilder werden, wenn du nichts anderes sagst, quadratisch dargestellt. Aber es sind auch andere Format möglich. Diese sind:
Quadratisch (1024x1024 Pixel)
Breit (1792x1024 Pixel)
Hoch (1024x1792 Pixel) - ideal für Porträts
In meinem Beispiel habe ich das zuletzt geänderte Bild in ein anderes Format umgewandelt. Ich habe einfach das Wort „breit“ verwendet. Lustigerweise sind die Strandkörbe nun in die falsche Richtung aufgestellt. Vielleicht weht ja ein starker Wind von der Meerseite oder es gibt interessantere Dinge am Strand zu sehen. Wer weiß. Aber das lässt sich ja durch verschiedene weitere Prompts ändern.
Hinweis: zum Teil erstellt DALL-E 3 die Bilder neu und völlig anders. Also nicht überrascht sein. Du musst schon eine Weile probieren, bis du dein gewünschtes Ergebnis hast.
Breite Version des Bildes
Wenn du auf das erzeugte Bild klickst, kannst du es ein wenig bearbeiten. Genauer gesagt markierst du einen Teil des Bildes und sagst ChatGPT, was mit dem markierten Bereich geschehen soll.
Schauen wir uns an einem Beispiel an, wie das funktioniert. Das von DALL-E generierte Bild sieht so aus:
Oben sind die Bearbeitungsfunktionen zu sehen. Wenn du auf (i) klickst, erscheint die von ChatGPT erstellte Eingabeaufforderung. Links davon ist die Download-Funktion und ganz links das Bearbeitungssymbol.
Nachdem du auf das Bearbeitungssymbol geklickt hast, kannst du oben links die Größe deines Cursors zum Markieren einstellen. Wische mit dem virtuellen Pinsel über den Bereich, den du bearbeiten möchtest.
Dann gibst du unten rechts den Text für den markierten Bereich ein. Also, was ChatGPT dort verändern soll. Nach kurzer Zeit erhältst du das geänderte Bild, das du mit einem Klick auswählen kannst. Fertig.
Ich fand das Ergebnis nicht so gut, aber vielleicht sieht das bei dir anders aus. Ich bin etwas verwöhnt von den KI-Funktionen von Adobe Photoshop.
Es ist nicht möglich, Bilder im Stile von bekannten Künstlern zu generieren. Du erhältst, wenn du es versuchst die Mitteilung, dass die Werke des gewünschten Künstlers noch nicht über 100 Jahre alt sind. Häufig wird dir angeboten ein ähnliches Bild zu erzeugen. Das orientiert sich dann nicht an dem Stil der Künstler, sondern versucht die Stimmung, die Motive und die Farben zu verwenden.
Laut Angaben von OpenAi wurden wichtige Sicherheitsmaßnahmen integriert, um die Generierung von gewalttätigen oder hasserfüllten Inhalten zu verhindern. Darüber hinaus soll das Erstellen von Bildern öffentlicher Personen unterbunden werden. Zudem ermöglicht DALL·E 3 Personen, ihre Bilder von der Schulung zukünftiger Bildgenerierungsmodelle auszuschließen.
Was ist ChatGPT?
ChatGPT ist ein Sprachmodell von OpenAI. Es ist darauf ausgelegt Konversationen zu ermöglichen. Mit ChatGPT kannst du eine Unterhaltung in natürlicher Sprache führen und dabei einfache, aber auch schwierige Fragen stellen. Das Modell ist in der Lage, auf Benutzereingaben in einem kontextuellen Rahmen zu reagieren, was es zu einem leistungsfähigen Tool für eine Vielzahl von Anwendungen macht, von der Beantwortung von Fragen bis hin zur Generierung kreativer Inhalte. Eine Einführung und Übersicht erhältst du in meinen Artikel: ➥ Einführung ChatGPT.
Was ist DALL-E 3?
DALL-E 3 ist eine erweiterte Version des Text-zu-Bild-Systems von OpenAI. Es versteht deutlich mehr Nuancen und Details als seine Vorgänger und ermöglicht dir, Ideen und Texte in Bilder umzusetzen. DALL·E 3 ist nativ auf ChatGPT aufgebaut, was eine engere Zusammenarbeit zwischen Text- und Bildgenerierung zulässt. Mehr über DALL-E und wie du Bilder dort erstellst, erfährst du in meinem Beitrag ➥ Mit DALL-E Bilder generieren.
Die offizielle Ankündigung und Beschreibung findest du auf der ➥Seite von OpenAI.
Mit ChatGPT eine Mindmap in 5 Minuten erstellen
Mit ChatGPT kannst du in 5 Minuten eine komplette Mindmap zu einem beliebigen Thema erstellen. Wie das geht? Einfach den Artikel ...
Weiter lesen ..
ChatGPT: Unterschiede kostenlose oder kostenpflichtige Version
Was sind die Unterschiede der Gratis- und Pro-Version von ChatGPT? Finde heraus, welche Version deine Anforderungen am besten ...
Weiter lesen ..
Wie ChatGPT dir beim Programmieren hilft
Nutze ChatGPT, um deine Programmierprojekte schneller und effizienter zu gestalten. Erfahre hier, wie die KI dir helfen ...
Weiter lesen ..
Zur Zeit gibt es noch keinen Kommentar zu diesem Thema. Das ist deine Chance 😉