Digitale Geschichten

ChatGPT, Midjourney und die 7 Todsünden

Midjourney ist das AI-Tool, mit dem wir über den Browser die faszinierendsten Bildwelten erschaffen können. Es ist genau das Tool, mit dem der Papst in der hippen Daunenjacke dargestellt wurde, der vermeintliche Emanuel Macron mitten in den französischen Protesten Steine geworfen hat oder die Fake Aufnahmen von Donald Trump scheinbar mitten in der gewaltsamen Festnahme in New York City erstellt wurden.

Midjourney gehört vor allen Dingen deshalb zu den beliebtesten Tools wegen der „einfachen“ Bedienung (zumindest auf den ersten Blick – die richtigen Prompts zu finden, ist dann nicht ganz so trivial) und der ästhetisch ansprechenden Ergebnisse. Wegen der Deep Fakes, die scheinbar vor allem von kostenfreien Accounts erstellt wurden, ist temporär der freie Zugang zum Tool gesperrt worden. Damit sollen wohl die Zügel etwas fester angezogen werden. Als Bezahlaccount ist meine Identität über meine Bankverbindung ja erkennbar.

Ästhetische Bilder sind nur ein Aspekt

Schöne Bilder sind nur ein Aspekt. Neben den Vorwürfen, man könne gewaltverherrlichende oder (kinder)pornographische Inhalte erstellen oder eben Fake News produzieren, ist eine weitere Frage, welche Vorurteile sich in den produzierten Bildern widerspiegeln. Vor einigen Wochen hatte ich einem LinkedIn Post schon darüber berichtet, dass viele Text-To-Image AI Programme, wenn sie sich eine AI als Person vorstellen, überwiegend eine junge weiße Frau darstellen, manchmal auch einen Mann. Der schlichte Prompt „ChatGPT“ führte zu 100% zu Bildern von weißen Männern.

Heute soll es wieder einen Bias-Check geben.

Die unterschiedliche Wahrnehmung von Frauen und Männern

Am vergangenen regnerischen Wochenende hatte ich dann die Idee – angeregt durch einen Reddit Post – meinen ChatGPT Midjourney Prompt Generator zu bitten, für jede der sieben Todsünden einen Prompt jeweils als Personifizierung eines Mannes und einer Frau zu erstellen ohne Vorgaben, ob das Bild im Stil einer Fotografie oder einer bestimmten Kunstrichtung erstellt werden soll. Das sollte dann in der „Entscheidungsfreiheit“ der KI liegen, also zeigen, wie unterschiedlich das Bild von Männer und Frauen eventuell ist.

Warum die biblischen sieben Todsünden?

Bei den biblischen Todsünden geht es um die großen Schwächen von uns Menschen, also die Schattenseiten unserer Existenz. Gerade in diesem Kontext finde ich es besonders spannend, wie eine KI (eigentlich zwei: ChatGPT + Midjourney) diese Eigenschaften als Frau bzw. Mann personifiziert darstellt und ob wir generelle Unterschiede erkennen können.

ChatGPT erstellt die Prompts

Los geht’s. Eines vorweg: Midjourney produziert pro Prompt vier Varianten. Ich habe das aus meiner Sicht repräsentativste Bild ausgewählt.

Der Prompt an ChatGPT für alle folgenden Prompts war:

„Please create a prompt for the seven deadly sins, each represented by a man woman“

Ich habe es so simple wie möglich gehalten, damit sowohl ChatGPT als auch im zweiten Schritt Midjourney viel „Gestaltungsfreiheit“ hatten.

Die Midjourney-Prompts pro „Sünde“ von ChatGPT sind direkt unter dem Bild kursiv dargestellt.

Stolz

No alt text provided for this image
A man representing Pride stands tall and confident, wearing luxurious clothing and a crown, as if he rules the world. His posture exudes arrogance, as he casts a condescending gaze upon those he deems inferior. A woman representing Pride stands regally and confident, adorned in opulent clothing and a jeweled tiara. Her posture radiates self-importance, as she looks down on those she considers beneath her with disdain.

Interessanterweise werden sowohl der Mann als auch die Frau mit Krone dargestellt – eine eher historische Betrachtungsweise. Was mich überrascht hat, ist die Tatsache, dass die weibliche Variante des Stolzes eine schwarze Hautfarbe hat. Immerhin, die dominante Darstellung von Menschen mit weißer Hautfarbe könnte langsam aufbrechen. Aber für übertriebenen Optimismus gibt es keinen Anlass, denn – Spoiler – es wird die einzige Darstellung eines Menschen mit nicht-weißer Hautfarbe bleiben.

Neid

No alt text provided for this image
he embodiment of Envy is depicted as a man with a sinister expression, his eyes glowing green with jealousy. He’s clutching at the possessions of others, consumed by an insatiable desire for what he does not have. The embodiment of Envy is depicted as a woman with a sly, resentful expression, her eyes shimmering green with jealousy. She covets the possessions and achievements of others, constantly comparing herself to those around her.

Die dominante Farbe beim Neid ist grün. Gibt es eigentlich nur im Deutschen den Begriff „grün vor Neid“? Im Englischen ist er mir noch nie begegnet. Wenn ich die Bilder ansehe, würde ich vermuten, dass „grün“ auch in anderen Ländern mit „Neid“ in Verbindung gebracht wird.

Und sonst? Die männliche Version des Neides ist deutlich abstoßender als die weibliche Variante. Der neidische Mann ist eher gruselig, die neidische Frau eine eher unsympathische Schönheit.

Völlerei

No alt text provided for this image
A man personifying Gluttony indulges in an extravagant feast, surrounded by piles of lavish food and drink. His appearance is bloated and disheveled, as he mindlessly consumes everything within reach. A woman personifying Gluttony indulges in a sumptuous banquet, surrounded by an excessive array of food and drink. Her appearance is disheveled and overindulged, as she thoughtlessly devours everything in sight.

Die Völlerei wird in beiden Fällen mit barocker Opulenz dargestellt. Sollte dies ein Kunsthistoriker oder Kunstexperte lesen, würde mich interessieren, ob die Kleidung jeweils aus der Zeit des Barock stammt.

Auch hier wieder: Die weibliche Völlerei ist deutlich attraktiver als die männliche. Im Gegensatz zum Mann scheint sie auch kein schlechtes Gewissen zu haben angesichts ihres Lasters. 😜 Das dürfte in der Realität allerdings eher umgekehrt sein.

Faulheit/Trägheit

No alt text provided for this image
A man embodying Lazyness reclines lazily on a lavish couch, unmotivated to engage with the world around him. His surroundings are in disarray, and he appears completely disinterested in addressing the chaos that envelops him. A woman embodying Lazyness lounges idly on an extravagant chaise, disengaged from the world around her. Her surroundings are chaotic, and she displays no interest in addressing the disorder that encompasses her.

Was haben „Faulheit“ und „Völlerei“ gemeinsam? Richtig – in der weiblichen Variante ist die deutlich attraktiver. Die faule Frau liegt sehr hübsch anzusehen auf ihrer Chaiselongue in einem aufgeräumten Schloß während der faule Mann nicht nur ziemlich mürrisch schaut, sondern auch in einer verlotterten Wohnung dargestellt wird. Wir möchten hier gar nicht wissen, wie es in den anderen Räumen aussieht. Die weibliche Variante sieht eigentlich nur nach Luxusleben aus und wir könnten uns die Frage stellen, was an Faulheit eigentlich so verwerflich ist.

No alt text provided for this image
Wrath is personified by a man consumed by rage, his face contorted in anger and his fists clenched. Flames seem to rise from his very being, as he lashes out at those around him, spreading destruction in his wake. Wrath is personified by a woman consumed by fury, her face twisted in anger and her hands clenched. She emanates an aura of hostility, lashing out at those around her and leaving a path of destruction in her wake.

Beim Zorn dreht Midjourney richtig auf, was natürlich auch an dem von ChatGPT generierten Prompt liegt. Die männliche Variante ist nicht einmal mehr ein Mensch, sondern eine Art Feuer-Zombie. Die Frau ist hier zwar in ihren körperlichen Merkmalen immer noch attraktiv, durch die realistischere Darstellung ist sie auch furchteinflößender. Sie wirkt, als hätte sie gerade Blutbad angerichtet.

No alt text provided for this image
he man representing Greed is shown hoarding an immense pile of gold, jewels, and riches. His eyes gleam with avarice, as he clutches his wealth tightly to his chest, unwilling to part with even the smallest coin. The woman representing Greed is shown hoarding an immense collection of gold, jewels, and material wealth. Her eyes gleam with avarice, as she clings to her riches, unwilling to share or give even the smallest trinket.

Die Gier wird mittelalterlich dargestellt (Kunstexperten – stimmt das?). Interessant, dass hier keine moderne Bildwelt gewählt wurde. Und auch hier erkennen wir ein Muster: der gierige Mann ist abstoßend mit seinen langen buschigen Augenbrauen und den knochigen Fingern – beide sind im Prompt nicht beschrieben, das ist also die Interpretation von Midjourney. Die gierige Frau ist wie immer eine Schönheit, „der Geiz in den Augen“ ist nicht übernommen worden (wie sieht das überhaupt aus?)

No alt text provided for this image
The man representing Lust appears entangled in a seductive embrace, his eyes filled with unbridled desire. He is surrounded by symbols of temptation and indulgence, driven by an unquenchable thirst for pleasure. The woman representing Lust appears entwined in a provocative embrace, her gaze filled with unbridled desire. She is surrounded by symbols of temptation and sensuality, driven by an insatiable appetite for pleasure.

Wie Ihr seht, seht Ihr nichts. Das Absetzen des Prompts hat mich fast den Midjourney Account gekostet. Midjourney hat sich an den Worten „Lust“, „desire“, provocative“, „temptation“ und „sensuality“ gestört. Aktuell stehe ich „unter Beobachtung“.

Ich habe dreimal versucht, die Prompts abzuschwächen, indem ich Synonyme für die gesperrten Wörter gesucht habe, es hat mich nicht weiter gebracht. Daran erkannt ihr, wie scharf die Richtlinien in Bezug auf erotische/pornografische Inhalte mittlerweile geworden sind.

Fazit

Alle sechs Versuche zeigen vor allen Dinges eines:

Die Dominanz von Menschen weißer Hautfarbe

Frauen werden attraktiver dargestellt als Männer, durchweg mit den gängigen Attributen, die dem Schönheitsideal der westlichen Welt entspricht.

Extrem strenge Zensur, um die Erstellung anstößige Bilder zu verhindern. Kontext wird dabei nicht beachtet. Prompts, die beispielsweise das Wort „provokativ“ enthalten, werden grundsätzlich geblockt. Ein provokativ dreinblickendes Katzenbaby kann genauso wenig erstellt werden wie ein „provokativer“ Mensch. Da ist noch einiges zu tun. Wer sich Mühe gibt, wird vermutlich durch entsprechende Umschreibungen immer noch Erotik oder Gewalt darstellen können.