Das erste Text-zu-Video-Modell von OpenAI ist da, aber man kann es nicht benutzen
Cutting Edge
2024-02-15T22:15:37Z
OpenAI stellt Sora vor, sein erstes generatives KI-Modell zur Umwandlung von Text in Video. Sora kann eine einfache Texteingabe oder ein Bild in eine Minute hochauflösendes Video verwandeln. Es kann auch bestehende Videos "erweitern" oder Frames einfügen. OpenAI entscheidet jedoch noch darüber, ob Sora als Produkt angeboten werden soll.
Dies ist nicht die erste Text-zu-Video-KI, aber vielleicht die beeindruckendste. Generative Videos von Google und Meta sind niedrig aufgelöst, abgehackt und unerträglich alptraumhaft. Das Modell von Sora hingegen produziert 1080p-Videos mit einer gleichmäßigen Bildrate, und seine Ausgabe kann mit einem echten Video verwechselt werden.
Erste Beispiele für die Ausgabe von Sora sind auf der OpenAI-Website verfügbar. Anhand dieser Beispiele können wir sehen, dass die KI ein gutes Verständnis für menschliche Körperproportionen, fotorealistische Beleuchtung und kreative Kinematografie hat. Sora ist auch gut darin, realistische Tiere zu zeichnen, und sie kann die Unvollkommenheiten alter Filme imitieren.
Natürlich ist Soras Leistung alles andere als perfekt. Alle Motive haben eine seltsame schwerelose Qualität, und wenn man genau hinsieht, entdeckt man einige der verräterischen Macken der KI-Bilderzeugung. OpenAI räumt ein, dass Sora nicht immer perfekt ist, und gibt einige "schlechte" Beispiele für die Ergebnisse der KI, darunter ein Video eines Mannes, der rückwärts auf einem Laufband läuft.
Das Sora-Modell verfügt über ein "tiefes Sprachverständnis" und kann in seiner Ausgabe "lebhafte Emotionen" ausdrücken. Sora benötigt jedoch keine langen oder komplizierten Eingabeaufforderungen. Einige der von OpenAI angeführten Beispiele basieren auf offenen Aufforderungen in Form von einzelnen Sätzen. Dies unterscheidet sich nicht allzu sehr von der Bilderzeugungsfunktion von ChatGPT.
Leider hat OpenAI die Bild-zu-Video-Fähigkeiten von Sora noch nicht gezeigt. Wir sind auch neugierig auf die Funktionen der KI zum Verlängern von Videos und Einfügen von Frames - wenn diese Funktionen effektiv sind, könnte Sora ein nützliches Werkzeug für die Videobearbeitung oder -wiederherstellung sein.
Wir wissen auch sehr wenig über die Trainingsdaten von Sora. OpenAI sagt, dass etwa 10.000 Stunden "hochwertiges" Videomaterial verwendet wurden, aber das ist auch schon alles. Weitere Informationen werden möglicherweise in OpenAIs Sora-Whitepaper enthalten sein, das Ende des 15. Januar veröffentlicht werden soll.
Auf jeden Fall muss Sora noch einige Hürden überwinden, bevor es ein echtes Produkt wird. OpenAI konsultiert "politische Entscheidungsträger, Pädagogen und Künstler", um die Bedenken der Öffentlichkeit besser zu verstehen. Außerdem arbeitet das Unternehmen mit Experten zusammen, die das Potenzial von Sora für "Fehlinformationen, hasserfüllte Inhalte und Voreingenommenheit" bewerten können Wenn OpenAI beschließt, Sora zu veröffentlichen, wird der Output der KI zur leichteren Identifizierung mit C2PA-Metadaten versehen.
Quelle: OpenAI