Inhalt
ChatGPT ermöglicht das Hochladen von Bildern und Fotos. Das hört sich erst einmal nicht so spektakulär an. Das habe ich auch gedacht, bis ich mich ein wenig damit beschäftigt habe, wie ich das nutzen kann. Von der Bilderkennung, über Texterkennung, Analyse bis hin zur Bildbeschreibung. Und das ist noch nicht alles. Diese Funktion wird auch ChatGPT Vision genannt. Ich zeige dir, was du mit der Bildanalyse alles machen kannst.
(Letzte Aktualisierung: 18.03.24)Inhaltsverzeichnis
Bild hochladen | Funktionen | Bildbeschreibung | Bildqualität erkennen | Objekterkennung | Texterkennung | Fazit | Häufige Fragen | Kommentare
Die sogenannte „Vision“ Funktion ist nur in dem kostenpflichtigen Modell von GPT-4 nutzbar. Du erkennst das an dem Bildsymbol neben der Eingabeaufforderung. Dort, wo du deinen Text eingibst.
Klicke auf das Symbol und lade dein Bild oder Foto hoch. Du hast auch die Möglichkeit, mehrere Bilder hochzuladen. Dabei gibt es sicherlich eine Größenbeschränkung, aber ChatGPT will nicht so recht sagen, wo diese liegt.
Der nächste Schritt ist, dass du beschreibst, was mit dem Bild geschehen und was ChatGPT damit machen soll.
Lade ein Bild hoch, und lass dir eine detaillierte Beschreibung davon geben. Vielleicht fragst du dich, wofür das gut ist. Nun, es gibt eine Menge an Anwendungsfällen:
Barrierefreiheit:
Für Menschen mit Sehbehinderungen kann die Bildbeschreibung eine wertvolle Hilfe sein. Sie ermöglicht es, visuelle Inhalte zugänglich zu machen, indem zum Beispiel sogenannte Alt-Texte für Bilder generiert und auf Webseiten genutzt werden.
Bildsortierung und -organisation:
Wenn du eine Vielzahl von Bildern besitzt und diese nach bestimmten Kriterien organisieren möchtest, kann die Bildbeschreibung helfen, den Inhalt in kürzester Zeit zu erfassen und entsprechend zu sortieren. Ein Nachteil ist dabei allerdings, dass man meist viele Bilder hat und diese alle hochzuladen und sich Beschriftungen erstellen zu lassen, könnte aufwändiger sein.
Kunstwerkanalyse:
Wenn du ein Kunstwerk hochlädst, versucht ChatGPT den Stil, die Technik und eventuell die Bedeutung oder den historischen Kontext zu erläutern.
Beispiel:
Wenn dich interessiert, wie solch eine Beschreibung ausschauen kann, habe ich ein Beispiel für dich. Ich habe zusätzlich noch eine Farbanalyse hinzugefügt. ➥ Die Analyse eines Gemäldes.
Meine Bewertung: ★ ★ ★ ★ ☆
ChatGPT kann bestimmte Objekte oder Elemente in einem Bild erkennen. Ich habe das mit zwei Beispielen getestet. Vorab verraten, ChatGPT hat beide Bildobjekte korrekt identifiziert und beschrieben.
Hier nun die Ergebnisse. Ich hoffe, du hast auch erkannt, was die Bilder zeigen.
ChatGPT Vision: Beispiel Feuerschale
Das Bild zeigt eine brennende Flamme in einer Art von Glas- oder Metallbehälter, möglicherweise eine Kerze oder eine Öllampe. Der Behälter ist auf Holzstücken oder Holzstrukturen platziert (...)
ChatGPT Vision:
Das Bild zeigt eine Holzoberfläche, die mit Moos überzogen ist. Moos ist eine Art von kleinem, grünem Landpflanze, die oft auf Bäumen, Steinen und anderen Oberflächen wächst, besonders in feuchten, schattigen Bereichen (...)
Meine Bewertung: ★ ★ ★ ★ ☆
Falls auf dem Bild Text vorhanden ist, kann ChatGPT diesen erkennen und dir den genauen Wortlaut wiedergeben. Es gibt zwar auch eine Menge anderer Tools, die das auch können, aber mit ChatGPT geht das auch. Zugegeben, mein Test ist nicht sehr schwierig, aber das Ergebnis ist bis auf das letzte Zeichen genau.
Meine Bewertung: ★ ★ ★ ★ ☆
Manchmal fällt die Interpretation eines Diagramms schwer. Vielleicht kann dann ChatGPT helfen. Ich habe es mit einer einfachen Aufgabe getestet und muss sagen, dass mich das Ergebnis nicht überzeugt hat. Es enthielt Fehler. Daher würde ich diese Art der Bilderkennung im Moment noch nicht empfehlen. Insbesondere wenn das Diagramm komplex ist. Da würde es schon einige Zeit dauern, um nach Fehlern in der ChatGPT-Analyse zu suchen. Dann kann man es auch gleich selbst machen.
Meine Bewertung: ★ ★ ☆ ☆ ☆
Die Qualität von Bildern ist oftmals wichtig, egal ob du Fotos machst oder sie in einer App verwendest. Jeder möchte gern ein gutes Bild posten und nicht in den Kommentaren sehen, dass das Bild schlecht ausschaut. Ob ein Bild gut oder schlecht ist, hängt von vielen Faktoren ab, wie Schärfe, Farben und sogar davon, wie viel Rauschen im Bild ist. Natürlich kannst du diese Sachen auch bewusst einsetzen und gegen fotografische Regeln verstoßen, aber darum geht es in diesem Fall nicht.
Es gibt spezielle Rechenverfahren, die automatisch messen können, wie gut dein Bild ist. ChatGPT kann deine Bilder prüfen und du bekommst Tipps und Infos über die Bildqualität und eventuell auch, wie du das Bild verbessern kannst.
Wenn dich interessiert, wie ChatGPT mein Foto beurteilt hat, schau dir gerne die ➥ Beurteilung des Fotos an. Ich fand die Beurteilung gut und richtig.
Meine Bewertung: ★ ★ ★ ★ ☆
Ich gestehe, ich bin erstaunt, was man alles mit ChatGPT machen kann. Nun ist es sogar möglich, Bilder beschreiben oder analysieren zu lassen. Abgesehen von einigen Schwächen in der Erkennung von Diagrammen, empfinde ich die Qualität der generierten Ergebnisse als sehr gut und nützlich.
Was meinst du zu dieser Funktion von ChatGPT Vision? Hast du das eine oder andere auch schon genutzt und wie beurteilst du die Antworten? Schreib es einfach unten in die Kommentare, es würde mich freuen.
Falls du im Detail wissen möchtest, wie das alles funktioniert, schau dir die Seite von OpenAI an. Dort findest du einen Link zu einem mehrseitigen, technischen PDF-Dokument mit dem Titel ➥GPT-4(V)ision system card.
GPT-4 Builder - Eigene GPTs erstellen und veröffentlichen
OpenAI GPTs: So erstellst du dein eigenes und persönliches ChatGPT. Anleitung, Tipps, sowie Vor- und ...
Weiter lesen ..
ChatGPT verstehen: So startest du mit Fragen und Antworten
Chat-GPT verstehen und starten. Einführung, was du mit Chat-GPT machen kannst. Dazu einige Tipps für hilfreiche ...
Weiter lesen ..
Wofür kann man ChatGPT nutzen? Ideen und Vorschläge.
Das kannst du alles mit ChatGPT machen. Umfangreiche Beispiele und Ideen, die dich inspirieren sollen. Es ist bestimmt etwas Neues ...
Weiter lesen ..
Flo
vor 6 Monaten
Hallo, seit ich über meine Erfahrungen mit LLMs blogge, bekomme ich auch viele Vorschläge. Unter anderem ihren sehr schönen Blog. Ich war bei der Diagrammerkennung ähnlich enttäuscht wie sie, bis ich GPT4 und die Wolfram Alpha API getestet habe. Es ist immer noch nicht perfekt, aber deutlich besser als Copilot (der hat von allen anderen LLMs am besten abgeschnitten). Würde mich interessieren, wie ihre Erfahrungen sind.
Burkhard
vor 6 Monaten
Mit der Wolfram API habe ich noch keine Erfahrungen gemacht. Danke für die Anregung. Ich schaue mir das in den nächsten Tagen einmal an.