MidJourney V5.2 vs. V6 Alpha: Wir testen die Unterschiede
Cutting Edge
2023-12-28T13:00:24Z
MidJourney hat die Alpha-Version seines V6-Modells herausgebracht, und es gibt viele versprochene Verbesserungen gegenüber V5.2. Wir schauen uns an, was auf dem Papier besser ist, und testen es gegen das ältere Modell.
Was ist neu in V6?
Zweifelsohne hat sich unter der Haube von V6 eine Menge getan, aber MidJourney hat die wichtigsten Funktionen in einem offiziellen Discord-Thread vorgestellt. Bitte beachten Sie, dass Sie ein Mitglied des MidJourney Discord sein müssen, um den Beitrag zu sehen. Dies sind die wichtigsten Änderungen:
- Genauere Befolgung der Prompts.
- Längere Prompts.
- Verbesserte Kohärenz und Modellkenntnis.
- Verbessertes Prompten und Remixen von Bildern.
- Geringfügige Fähigkeit zum Zeichnen von Text (ähnlich wie beim neuen DALL-E-Modell).
- Verbesserte Upscaler mit den beiden Modi "subtil" und "kreativ".
Kurz gesagt, V6 bringt MidJourney mehr in Einklang mit den beeindruckenden neuen Fähigkeiten des konkurrierenden Werkzeugs DALL-E 3, aber hier sind wir daran interessiert zu sehen, wie viel besser es ist als das V5.2 Modell, das zum Zeitpunkt der Erstellung dieses Artikels die Standardversion war.
Wenn Sie ein MidJourney-Abonnent sind und die neue V6-Alpha-Version ausprobieren wollen, geben Sie einfach /settings in Discord ein und wählen dann V6 aus dem Modellmenü, das nach dem Senden des Befehls erscheint.
Einhaltung der Prompts
Das erste, was ich testen möchte, ist, wie gut sich das neue Modell an die Eingabeaufforderung hält. In der Vergangenheit hat MidJourney Details in der Eingabeaufforderung eher als vage Vorschläge denn als Anweisungen aufgefasst. Hier ist also eine Aufforderung mit sehr detaillierten Anweisungen.
Zeichne einen Marktplatz in einer futuristischen Stadt. Links im Bild ist eine Frau mit einem Einkaufskorb in ihrem linken Arm. Auf der rechten Seite befindet sich ein Marktstand. Hinter dem Stand steht ein Roboter, der Obst verkauft. Der Roboter ist lila und hält einen Apfel in seinem ausgestreckten rechten Arm.
Für jedes Modell habe ich das Bild ausgewählt, das meiner Aufgabenstellung am ehesten entspricht. Hier ist das Beste, was V5.2 zustande gebracht hat.
Hier ist das Beste, was V6 zustande gebracht hat.
Obwohl V5.2 im Allgemeinen alle Elemente enthält, die ich verlangt habe, sind sie nicht korrekt zum Rahmen oder zueinander angeordnet. Der einzige wirkliche Fehler, den V6 hier gemacht hat, ist, den Apfel in den linken Arm des Roboters und den Einkaufskorb in den rechten Arm des Mädchens zu stecken. Am wichtigsten ist vielleicht, dass alle von V6 erzeugten Bilder viel kohärenter sind als die von V5.2, das hier keinen Sinn für Rahmen oder Gleichgewicht hat und einfach irgendwie zusammengewürfelt wirkt.
Text in Bilder einfügen
Wie auch DALL-E 3, rühmt sich MidJourney V6 der Fähigkeit, Text richtig in ein Bild zu integrieren. Alles, was Sie tun müssen, ist, den Text durch Anführungszeichen in Ihrem Prompt zu trennen. Hier ist der Prompt, den wir verwendet haben:
Eine Stofffahne mit der Aufschrift "How To Geek".
Ich stelle hier alle vier Versuche beider Modelle ein, um zu zeigen, dass V6 noch nicht perfekt ist, aber keines der V5.2-Bilder ist auch nur annähernd in der Lage, den Text richtig darzustellen.
Mit V6 hingegen war es zu 75 % beim ersten Versuch erfolgreich, und man kann deutlich sehen, dass der Text richtig in das Bild integriert ist und nicht einfach überlagert wird.
Künstlerische Qualität
Während wir mehr oder weniger objektiv testen können, wie gut V6 einer Aufforderung folgen oder Text integrieren kann, ist die künstlerische Qualität viel schwieriger zu bestimmen. Bei meinem Vergleich der MidJourney-Modelle V1 bis V5.2 wurde deutlich, dass die KI mit jedem neuen Modell "phantasievoller" wurde, um ein besseres Wort zu finden. Komposition und Detailtreue haben sich ebenfalls drastisch verbessert, und ehrlich gesagt, hat V5.2 immer noch die Nase vorn, wenn es um künstlerisches Flair geht, wie ich beim Vergleich von MidJourney mit DALL-E 3 festgestellt habe.
Ich denke also, dass dies am besten dem Urteil jedes einzelnen Lesers überlassen werden sollte, und deshalb hier ein paar Bildpaare, mit V5.2 auf der linken und V6 auf der rechten Seite.
Aufforderung: Eine epische und wunderschöne Fantasyszene eines Elbendorfes, in dem die Elfen ihren Geschäften nachgehen. Mach daraus ein Ölgemälde
Aufforderung: Eine futuristische Straßenszene mit Aliens, Robotern und Menschen, die alle in der gleichen Stadt leben. Gestalte sie im Stil eines digitalen Speedpaintings.
Aufforderung: Ein Naturfoto von Bergen, die man vom Strand aus sieht, mit einem großen sichtbaren Mond am Himmel.
Es ist nur eine Alpha (vorerst)
Es ist sehr wichtig, sich vor Augen zu halten, dass MidJourney V6 zum Zeitpunkt des Schreibens noch nicht fertig ist. Es handelt sich um ein neues Modell, das von Grund auf neu entwickelt wurde, aber mit den Lektionen, die aus den vorherigen Modellen gelernt wurden. In V6 fehlen noch einige der großartigen Zusatzfunktionen, die in V5.2 zu finden sind, wie z.B. die Möglichkeit, das Bild zu schwenken.
Klar ist, dass Sie alle Tricks, die Sie für MidJourney kennen, über Bord werfen können, denn V5.2 ist immer noch in der Lage, atemberaubende und brauchbare Bilder zu erzeugen. Zum jetzigen Zeitpunkt kann es nicht schaden, das V6-Alpha-Modell auszuprobieren, um zu sehen, ob es bessere Ergebnisse mit Ihren Prompts liefert, aber behalten Sie auch V5.2 in Reichweite.