Was ist OpenAI Sora und wird es Video für immer verändern?
Cutting Edge
2024-02-23T15:00:14Z
Wichtigste Erkenntnisse
- OpenAI Sora erstellt äußerst realistische Videoclips aus Textaufforderungen und stellt damit einen großen Fortschritt in der KI-Technologie dar.
- Die Fähigkeit von Sora, die Physik in Videos genau zu simulieren, ist ein herausragendes Merkmal, aber es gibt noch einige Probleme mit Interaktionen und der Objekterzeugung.
- Die Verfügbarkeit von Sora für die Öffentlichkeit ist ungewiss, da es derzeit auf Sicherheit und Qualität getestet wird, bevor ein fester Veröffentlichungstermin festgelegt wird.
Die Geschwindigkeit der KI-Entwicklung bewegt sich auf einen Punkt zu, der das menschliche Verständnis übersteigt, und das Text-zu-Video-System Sora von OpenAI ist nur die jüngste KI-Technologie, die die Welt schockiert, da sie schneller als erwartet realisiert, was passiert.
Was ist OpenAI Sora?
Wie andere generative KI-Tools, z. B. DALL-E und MidJourney, nimmt Sora Textanweisungen von Ihnen auf und wandelt sie in ein visuelles Medium um. Im Gegensatz zu den genannten KI-Bildgeneratoren erstellt Sora jedoch einen Videoclip mit Bewegung, verschiedenen Kamerawinkeln, Regie und allem anderen, was man von einem traditionell produzierten Video erwarten würde.
Wenn man sich die Beispiele auf der Sora-Website ansieht, sind die Ergebnisse in den meisten Fällen von echten, professionell produzierten Videos nicht zu unterscheiden. Die Bandbreite reicht von hochwertigen Drohnenaufnahmen bis hin zu millionenschweren Filmproduktionen. Komplett mit KI-generierten Schauspielern, Spezialeffekten und allem, was dazugehört.
Sora ist natürlich nicht die erste Technologie, die dies tut. Bislang war der sichtbarste Marktführer in diesem Bereich RunwayML, das seine Dienste der Öffentlichkeit gegen eine Gebühr anbietet. Aber selbst unter den besten Bedingungen ähneln die Videos von Runway eher den frühen Generationen von MidJourney-Standbildern. Es gibt keine Stabilität im Bild, die Physik macht keinen Sinn, und während ich dies schreibe, ist der längste Clip 16 Sekunden lang.
Im Gegensatz dazu ist die beste Ausgabe, die Sora zu zeigen hat, perfekt stabil, mit einer Physik, die richtig aussieht (zumindest für unser Gehirn), und die Clips können bis zu einer Minute lang sein. Die Clips sind völlig tonlos, aber es gibt bereits andere KI-Systeme, die Musik, Soundeffekte und Sprache erzeugen können. Ich habe also keinen Zweifel daran, dass diese Tools in einen Sora-Workflow integriert werden könnten, oder schlimmstenfalls in traditionelle Voiceover- und Foley-Arbeiten.
Man kann gar nicht genug betonen, was für einen enormen Sprung Sora gegenüber den alptraumhaften KI-Videos darstellt, die nur ein Jahr vor der Sora-Demo aufgenommen wurden. Wie zum Beispiel der ziemlich verstörende KI-Will Smith, der Spaghetti isst. Ich denke, das ist ein noch größerer Schock für das System, als wenn KI-Bildgeneratoren von einem Running Gag zu einem existenziellen Schrecken für visuelle Künstler werden.
Sora wird sich wahrscheinlich auf die gesamte Videobranche auswirken, von Ein-Personen-Filmproduzenten bis hin zu den Mega-Budget-Projekten von Disney und Marvel. Nichts wird hiervon unberührt bleiben. Ich denke, das gilt vor allem deshalb, weil Sora nicht alles komplett neu erstellen muss, sondern mit vorhandenem Material arbeiten kann, z. B. indem es ein von Ihnen bereitgestelltes Standbild animiert. Dies könnte der wahre Beginn der synthetischen Filmindustrie sein.
Wie funktioniert Sora?
Wir werden so weit wie möglich unter die Haube von Sora gehen, aber es ist nicht möglich, so sehr ins Detail zu gehen. Erstens, weil OpenAI ironischerweise nicht offen über die innere Funktionsweise ihrer Technologie spricht. Alles ist urheberrechtlich geschützt, und so ist uns die geheime Soße, die Sora von der Konkurrenz abhebt, in ihren genauen Einzelheiten unbekannt. Zweitens bin ich kein Informatiker, und Sie sind wahrscheinlich auch kein Informatiker, so dass wir nur in groben Zügen verstehen können, wie diese Technologie funktioniert.
Die gute Nachricht ist, dass es einen hervorragenden (kostenpflichtigen) Sora-Erklärer von Mike Young auf Medium gibt, der auf einem technischen Bericht von OpenAI basiert, den er für uns Normalsterbliche aufgeschlüsselt hat, damit wir ihn verstehen. Während beide Dokumente sehr lesenswert sind, können wir hier die wichtigsten Fakten extrahieren.
Sora basiert auf den Erfahrungen, die Unternehmen wie OpenAI bei der Entwicklung von Technologien wie ChatGPT oder DALL-E gemacht haben. Sora innoviert die Art und Weise, wie es auf Beispielvideos trainiert wird, indem es diese Videos in "Patches" aufteilt, die analog zu den "Token" sind, die vom ChatGPT-Trainingsmodell verwendet werden. Da diese Token alle gleich groß sind, spielen Dinge wie Cliplänge, Seitenverhältnis und Auflösungsgröße für Sora keine Rolle.
Sora verwendet denselben breiten Transformationsansatz, der auch GPT antreibt, zusammen mit der Diffusionsmethode, die KI-Bildgeneratoren verwenden. Während des Trainings werden verrauschte, teilweise diffundierte Patch-Token aus einem Video betrachtet und es wird versucht, vorherzusagen, wie das saubere, rauschfreie Token aussehen würde. Durch den Vergleich mit der Grundwahrheit erlernt das Modell die "Sprache" des Videos. Deshalb sehen die Beispiele auf der Sora-Website auch so authentisch aus.
Abgesehen von dieser bemerkenswerten Fähigkeit verfügt Sora auch über sehr detaillierte Untertitel für die Videobilder, auf die es trainiert wurde, was einen großen Teil dazu beiträgt, dass es in der Lage ist, die von ihm generierten Videos auf der Grundlage von Textaufforderungen zu ändern.
Soras Fähigkeit, die Physik in Videos akkurat zu simulieren, scheint eine emergente Funktion zu sein, die einfach daraus resultiert, dass es auf Millionen von Videos trainiert wurde, die Bewegungen auf der Grundlage realer Physik enthalten. Sora verfügt über eine ausgezeichnete Objektpermanenz. Selbst wenn ein Objekt den Rahmen verlässt oder von einem anderen Objekt im Rahmen verdeckt wird, bleibt es präsent und kehrt unbehelligt zurück.
Dennoch gibt es manchmal Probleme, wenn Dinge im Video interagieren, mit der Kausalität und mit der spontanen Objekterzeugung. Außerdem scheint Sora von Zeit zu Zeit links und rechts zu verwechseln, was recht amüsant ist. Nichtsdestotrotz ist das, was bisher gezeigt wurde, nicht nur schon brauchbar, sondern absolut State of the Art.
Wann werdet ihr Sora bekommen?
Wir sind alle sehr gespannt darauf, Sora in die Hand zu nehmen, und Sie können darauf wetten, dass ich damit spielen und darüber schreiben werde, wie gut diese Technologie ist, wenn uns nicht gerade handverlesene Ergebnisse gezeigt werden, aber wie schnell kann das passieren?
Zum Zeitpunkt der Erstellung dieses Artikels ist unklar, wie lange es dauern wird, bis Sora für die Allgemeinheit verfügbar ist, oder wie viel es kosten wird. OpenAI hat erklärt, dass sich die Technologie in den Händen des "Red Teams" befindet, einer Gruppe von Leuten, deren Aufgabe es ist, Sora dazu zu bringen, all die unanständigen Dinge zu tun, die es nicht tun soll, und dann dabei zu helfen, Sicherheitsvorkehrungen zu treffen, damit so etwas nicht passiert, wenn die tatsächlichen Kunden es benutzen. Dazu gehört die Möglichkeit, Fehlinformationen zu verbreiten, abfälliges oder beleidigendes Material zu erstellen und viele andere Missbräuche, die man sich vorstellen kann.
Zum Zeitpunkt der Erstellung dieses Dokuments befindet sich die Software in den Händen ausgewählter Autoren, was vermutlich zum einen Testzwecken dient und zum anderen, um im Vorfeld der endgültigen Veröffentlichung einige Bewertungen und Empfehlungen von Dritten zu erhalten.
Unterm Strich wissen wir nicht, wann es verfügbar sein wird, so wie man DALL-E 3 einfach bezahlen und benutzen kann, und in Wirklichkeit hat sogar OpenAI noch kein festes Datum. Das liegt ganz einfach daran, dass die Sicherheitstester, wenn sie die Software testen, Probleme entdecken könnten, deren Behebung mehr Zeit als erwartet in Anspruch nimmt, wodurch sich die Veröffentlichung verzögern würde.
Die Tatsache, dass OpenAI sich bereit fühlt, Sora zu zeigen und sogar einige kuratierte öffentliche Aufforderungen über X (ehemals Twitter) anzunehmen, bedeutet einfach, dass das Unternehmen der Meinung ist, dass die Qualität des Endprodukts so gut wie fertig ist, aber bis es ein besseres Bild der öffentlichen Meinung, der aufgeworfenen Sicherheitsprobleme und der entdeckten Sicherheitsprobleme gibt, kann niemand mit Sicherheit sagen. Ich denke, wir sprechen eher von Monaten als von Jahren, aber erwarten Sie es nicht nächste Woche.