"A journalist who is also a bad programmer, stylized in the style of Gary Larson"
Midjourney: vier Bilder von Robotern, die malen; vier Bilder von Einhörnern - stilisiert, anaglyphe Farben

KI-Tabu, Runde 2: Einhörner malende Roboter sind schwierig!

Nach der ersten Runde des „KI-Tabu“ – male einen Biber mit einer Bild-KI, ohne die Begriffe Biber, Baum, Nagetier, nagen, platter Schwanz zu verwenden – konnte ich eine neue Spielrunde ausprobieren – und auch die verrät uns eine Menge darüber, wie die verschiedenen Bild-KI-Modelle ticken.

Gerade bin ich zurück von der nr23, der Netzwerk-Recherche-Jahreskonferenz. Viele wunderbare Journalistinnen und Journalisten durfte ich dort treffen; es war gehaltvoll, inspirierend – und natürlich hatte ich wieder einen Heidenspaß dabei, die 2023er Version des NR-KI-Pub-Quiz auszurichten. Mit einer KI-„Tabu“-Runde wie im Vorjahr – wie man die hätte gewinnen können, habe ich ja hier verraten, deshalb gab es diesmal natürlich angepasste Regeln.

Hürde für Bild-KI: Die Dinge ins richtige Verhältnis setzen

Hintergrund war eine Beobachtung: So brilliant Midjourney Fotos von x, y oder z generiert – meine simple Bitte, eine blaue Katze neben einer grünen Katze auf zwei Teller zu setzen, führte nicht zum gewünschten Erfolg. Mit zusammengesetzten Prompts scheint sich das vorgeschaltete Sprachmodell schwer zu tun: Blau, grün, zwei Katzen, ein Teller – all das kommt irgendwie vor, aber nicht in der Kombination, wie es der Prompt aus menschlichem Verständnis vorschreibt.

Vier Midjourney-Bilder: zwei moderat blaue Katzen vor zwei Teller mit grünen Äpfeln, zwei blaugrüne Katzen vor einem Teller mit einem Apfel; eine grüne Katze vor einer auf einen Teller gemalten blauen Katze; eine blaue und eine grüne Katze, davor zwei Tassen mit Unterteller.
Midjourney: „/imagine A blue cat next to a green cat, both cats sitting on a plate“

 

 

 

 

 

Es gibt auch einen schicken linguistischen Begriff dafür, den ich nicht mehr finde (was wahrscheinlich besser ist, sonst würde ich am Ende noch so tun, als verstünde ich etwas davon) – und eine Reihe von Prompts in einem Test, der genau auf diese Fähigkeit prüft.

Also habe ich mir gedacht: Wenn die Modelle sich mit dem richtigen Verhältnis der Dinge so schwer tun, wäre das eine gute Aufgabe für die nächste Pub-Quiz-Runde: „Ein Roboter, der ein Einhorn malt.“ Dass die Worte „unicorn“, „horse“ und „pony“ tabu waren, kam als kleine zusätzliche Hürde dazu.

Und wie sich die Modelle dabei geschlagen haben, ist lehrreich.

DeepFloyd > DALL-E2 > StableDiffusion

StableDiffusion ist das schlechteste Werkzeug, um die Objekte wie gewünscht in Szene zu setzen – das merkten die Pub-Quiz-Teilnehmer sehr schnell. Nur ein Team reichte ein Bild ein, das nach einhelliger Meinung das künstlerisch wertvollste war – allerdings leider nicht das kleinste bisschen Einhorn enthielt.

StableDiffusion-Schöpfung: Junger Mann mit Emo-Frisur, comicartig, steht einem mechanischen Roboter gegenüber

DeepFloyd IF, ein Verwandter von StableDiffusion mit etwas anderem technischem Aufbau, soll besonders gut Schilder und andere Texte im Bild erzeugen können – das können die Bildgeneratoren sonst auch nicht so gut. Aber auch die räumlichen Beziehungen zwischen den Objekten im Prompt versteht DeepFloyd sehr gut – volle Punktzahl. (Die etwas fragwürdige Ästhetik floss nicht in die Punktewertung ein.)

DeepFloyd: Sehr glatt aussehender Roboter - fast wie eine Ritterrüstung - malt ein Einhorn auf eine Staffelei

Volle Punktzahl auch für das Bild, das allen ein spontanes „Awwwwww….“ entlockte – der Kinderzeichnungs-Stil gewann Herzen. Allerdings hat es drei Schwächen: Das Einhorn hat streng genommen kein Horn, dafür hat der Roboter eine Tunfischflosse auf dem Kopf, und es ist offensichtlich mit dem OpenAI-Bildgenerator Dall-E2 erzeugt, der eigentlich nicht zugelassen war.

DeepFloyd: Roboter mit einer Art Walfischfluke auf dem Kopf mit einem Pinsel in der Hand, einer regenbogenbunten Pferdekopf-Kinderzeichnung gegenüber

Was die räumlichen Beziehungen angeht, steht er zwischen StableDiffusion und DeepFloyd – schon ganz gut, aber DeepFloyd ist besser.

„Ferrari Logo“ statt „Pferd“ – gute Idee, aber…

DeepFloyd allein sicherte keinen Sieg bei dieser Spielrunde – da war noch die Sache mit dem Einhorn bzw. dem Pferd. Ein Team hatte zwar eine deutliche Synonymschwäche, kam aber auf die kreative Idee, den Roboter ein Ferrari-Wappen malen zu lassen.

DeepFloyd-Bild: Roboter malt ein Ferrari-artiges Wappen auf die Kühlerhaube eines Autos; das Tier im Wappen sieht allerdings eher wie eine dämonische Ziege ausDeepFloyd-Bild: Ein Roboter-Arm malt das Ferrari-Logo

Auch hier hat DeepFloyd die Objektbeziehungen gut hinbekommen – allerdings fehlten die Einhornhörner, und auch das Tier auf dem Wappen auf der Kühlerhaube kann nur mit sehr viel gutem Willen als Pferd bezeichnen.

Die Sache mit den negativen Prompts bei Midjourney

Außer Konkurrenz hat Claus, der Schiedsrichter, versucht, die Aufgabe mit Midjourney zu lösen – und ist daran gescheitert. Mein Eindruck, dass Midjourney nicht besonders gut ist in Objektbeziehungen, hat sich bestätigt – hier malt das Tier einen Roboter (well), nicht der Roboter ein Tier. Midjourney: Vier Bilder von Zebras, die einen Roboter malen.

Die Idee, das Pferd/Einhorn als ein „Zebra ohne Streifen“ zu prompten, hat so auch nicht funktioniert – das hatte ich ja neulich schon bei der Geschichte vom Bart erwähnt. Dabei sind negative Prompts bei Midjourney durchaus möglich –  entweder, indem man den Streifen ein negatives Gewicht gibt („stripes::-2.0“), oder durch das Kommando –no („zebra –no stripes“).

Bei meinen Tests hat beides nicht funktioniert. Es bleibt also auch das nächste Mal spannend! Nächstes KI-Pub-Quiz ist geplant für die SCICAR Ende September. Nicht nur deshalb schon mal den 29./30.9. vormerken!

Auch lesenswert:


Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert