Fragen richtig fragen

Bunte Fragezeichen

Heij, was machst Du gerade? Bekannte fragen mich das häufiger. Aktuelle Antwort: „unter anderem Künstliche Intelligenz“. Für Kunden erarbeite ich Verfahren zu RAG (Retrieval Augmented Generation) und Agenten. Das Ziel ist das Durchsuchen von unternehmenseigenen Datenbeständen und das Formulieren von passenden Antworten für eine Frage in einem gegebenen Kontext. Ein wesentlicher Punkt ist, dass man geschickt danach fragt, was welches Ergebnis man erzielen möchte. Dann kommt der Rest von selbst.

Wie das geht? Anschaulich wird es an einer scherzhaften Bitte eines ehemaligen Kollegen (Lionel Briand), aus dem Originalbild doch die anderen Personen zu entfernen. Frage Chat-GPT (oder besser Dall-E) einfach danach: „Ein Redner auf einer wissenschaftlichen Konferenz in einem Raum mit einer Projektionsfläche, entferne die Personen im Hintergrund und Vordergrund.“

Das Originalbild war:

Das Ergebnis ist:

Der Python-Code:

from openai import OpenAI
import os

os.environ["OPENAI_API_KEY"] ="sk-XXX" # durch den OpenAI API Key ersetzen

client = OpenAI()

response = client.images.edit(
 model="dall-e-2",
 image=open("lionel.png", "rb"),
 mask=open("lionel-maske.png", "rb"),
 prompt="Ein Redner auf einer wissenschaftlichen Konferenz in einem Raum mit einer Projektionsfläche, entferne die Personen im Hintergrund und Vordergrund.",
 n=1,
 size="512x512"
)

response = client.images.edit(
  model="dall-e-2",
  image=open("lionel.png", "rb"),
  mask=open("lionel-maske.png", "rb"),
  prompt="Ein Redner auf einer wissenschaftlichen Konferenz in einem Raum mit einer Projektionsfläche, entferne die Personen im Hintergrund und Vordergrund.",
  n=1,
  size="512x512"
)
image_url = response.data[0].url
print(response.data[0].url)

Neben dem Originalbild wird noch eine Bildmaske verlangt, die angibt, welche Stellen des Bildes zu verändern sind. Die verwendete Maske, in der die zu verändernden Bereiche des Originalbildes transparent gezeichnet sind, ist:

Die verwendete Version des Models ist Dall-E-2 und nicht die neuere Version Dall-E-3, da die „edit“-Funktion nur in der früheren Version vorhanden ist.

In der Query wird lediglich gesagt, was das Zielbild enthalten soll und mit diesen Angaben werden die zu löschenden Bereiche manipuliert, also die Personen gelöscht und durch den Raum ersetzt.

Die Kunst bei der Nutzung von Large Language Models ist also, genau zu beschreiben, was man möchte. Man sollte sich dabei an die Kriterien in den folgenden drei Fragen orientieren:

  1. Frage ich das Richtige?
    Es ist nicht immer einfach, mit welcher Bitte man sich an das Modell wenden muss. Es gibt einfache und komplexe Fragen, mit und ohne Kontext. Es bedarf etwas Übung und Erfahrung.
  2. Frage ich richtig?
    Hier geht es um die Struktur der Frage. Der Prompt soll so ausgestaltet werden, dass sowohl Inhalte (Kontext und Wunschergebnis) korrekt beschrieben werden und das Modell Hinweise zur Antwort erhält.
  3. Ist das Ergebnis richtig?
    Das Ergebnis sollte immer geprüft werden, um Fehlinterpretationen oder falsche Kreativität des Modells zu vermeiden.

Im Falle der Bildmanipulation sind die Ansätze noch recht einfach. Bei der Beantwortung komplexer Anfragen modifiziert man die eingegebene Frage (query), sucht in unternehmensspezifischen Datenbeständen, erweitert den Kontext, stellt die Anfrage nach erprobten Mustern mit zahlreichen Anweisungen und prüft das Ergebnis, um eventuell nachzufragen. Durchaus herausfordernd, aber die Ergebnisse bei Texten sind genauso verblüffend, wie das perfekt retuschierte Bild. Aber wie heißt es so schön? 1 Bild sagt mehr als 1.000 Worte. 😀

Beitragsbild von Gerd Altmann auf Pixabay

Fragen richtig fragen
Haben Sie Fragen oder Anmerkungen zum Inhalt? Gerne nehmen wir uns für Sie Zeit: Senden Sie uns eine E-Mail .

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Nach oben scrollen