So erkennen Sie AI-generierte Videos (vorerst)


Cutting Edge
2024-03-19T11:00:14Z

Mit der Einführung des SORA Text-to-Video-Modells von OpenAI blicken wir in eine unausweichliche Zukunft voller KI-generierter Videos. Aber die Technologie ist noch nicht ausgereift. Hier sind einige Tipps, wie man KI-generierte Videos (vorerst) erkennen kann.

Das Erkennen von KI-generierten Inhalten kann eine Herausforderung sein

Auf den ersten Blick könnte man meinen, dass es sich bei KI-generierten Videos um echte Inhalte handelt. Erst wenn Sie etwas genauer hinschauen, werden Sie feststellen, dass etwas nicht stimmt.

Alle Beispiele, über die wir in diesem Artikel sprechen, beziehen sich auf das Text-zu-Video-Modell SORA von OpenAI, das im Februar 2024 angekündigt wurde. Es ist das bei weitem fortschrittlichste Modell seiner Art und wandelt Textaufforderungen in bewegte Bilder um. Seit dem berüchtigten Reddit-Post von Will Smith, der Spaghetti isst, der Anfang 2023 aufgetaucht ist, hat sich viel getan. Zum Zeitpunkt der Erstellung dieses Artikels im März 2024 befindet sich SORA noch in der geschlossenen Testphase.

Das Erkennen von KI-generierten Fotos und Videos ist eher eine Kunst als eine exakte Wissenschaft. Es gibt zwar Möglichkeiten, um festzustellen, ob ein Foto von einer künstlichen Intelligenz erzeugt wurde, aber sie funktionieren nicht immer. Tools, die zur Erkennung von KI-Inhalten entwickelt wurden, sind oft unzuverlässig, selbst wenn es sich um Text handelt.

Hier sollen einige Möglichkeiten aufgezeigt werden, wie Sie KI-Inhalte erkennen können, zumindest im Moment. Denken Sie daran, dass sich die Modelle ständig weiterentwickeln, so dass es immer schwieriger wird, diese Merkmale zu erkennen. Manchmal können die Wahl des Themas und der Kontext des Videos den Unterschied ausmachen.

Achten Sie auf subtile Veränderungen und "Geister"

Eine Möglichkeit, eine überzeugende KI-Fälschung zu erkennen, ist die Suche nach subtilen Veränderungen, aber das ist nicht ganz einfach. Ein Beispiel von OpenAIs SORA zeigt eine Frau, die eine neonbeleuchtete Straße in Tokio entlanggeht. Die Szene ist für ein Text-zu-Video-Tool so beeindruckend, dass man den Garderobenwechsel gegen Ende der Aufnahmen übersehen haben könnte.

Die Kleidung der Frau in der Anfangsszene zeigt ein rotes Kleid mit einer langen Strickjacke und einer Lederjacke. Die Strickjacke ist etwas seltsam, da sie mit der Jacke zu verschmelzen scheint, aber ich bin nicht gerade Mr. Fashion, also lasse ich es durchgehen:

OpenAI SORA Tokyo night scene example clip.

Schauen Sie sich dieselben Kleidungsstücke in der Nahaufnahme an, und Sie werden sehen, dass das Kleid jetzt dunkle Flecken hat und dass die Lederjacke ein viel größeres, nicht mittiges Revers aufweist:

OpenAI SORA Tokyo night scene close up.

Dies ist so subtil, dass die meisten Leute das Material mehrmals ansehen müssten, um es zu erkennen. Die Szene ist dicht, voller Spiegelungen und Hintergrunddarsteller, was von dem Fauxpas ablenkt.

Etwas anderes, worauf man achten sollte, sind Geister oder Objekte, die in die Existenz hinein- und wieder hinausgehen. Das Video von OpenAI über eine kalifornische Goldgräberstadt ist ein gutes Beispiel dafür. Werfen Sie einen Blick auf diese eher nebulös aussehende Figur, die Ihr Gehirn wahrscheinlich als Mann mit Pferd interpretiert:

OpenAI SORA California gold rush town.

Zwei Sekunden später ist die Figur völlig verschwunden. Wenn Sie sich das Video ansehen, werden Sie sehen, dass die Figur wie ein Gespenst in der Erde verschwindet:

OpenAI SORA California gold rush town showing a

KI kämpft mit Fingern, Brillen und feineren Elementen

Eines der größten Probleme für KI-generative Modelle sind Extremitäten und feine Linien. Sehen Sie sich insbesondere Hände, gehaltene Gegenstände, Brillen und die Art und Weise, wie Dinge mit menschlichen Merkmalen interagieren (wie Hüte, Helme oder sogar Haare), genau an.

Bei Videos ist diese Art von Fehlern im Vergleich zu KI-generierten Fotos leichter zu erkennen, da sich diese Merkmale von einer Szene zur nächsten ändern können.

Die Platzierung von Fingern und Händen ist für die KI besonders schwer zu bewerkstelligen. Generative Modelle neigen dazu, Hände mit mehr oder weniger Fingern zu produzieren, als man erwarten würde. Manchmal sehen die Dinge nicht ganz richtig aus, die Finger sind sehr dünn oder es gibt zu viele Fingerknöchel. Gehaltene Objekte weisen die gleiche Unschärfe auf und wirken manchmal so, als hätte der Mensch im Bild das, was er hält, in sich aufgesogen.

Achten Sie auf Brillen, die nicht symmetrisch zu sein scheinen oder mit Gesichtern verschmelzen. In einem Video kann es sogar vorkommen, dass die Gläser zwischen den Szenen ein- und ausgeblendet werden. Das Gleiche gilt für Arme und Beine. Sehen Sie sich dieses SORA-Video von Menschen in Lagos, Nigeria, an:

OpenAI SORA Lagos street scene depicting some irregularities.

Kannst du bitte deinen dritten Arm von meinem Bein nehmen?

Schauen Sie sich Objekte im Hintergrund eines Bildes genau an

Hintergrunddetails sind bei KI-generierten Videos oft ein eindeutiges Indiz, mehr noch als bei Fotos. Eine gute Fälschung hängt davon ab, dass das Motiv überzeugend genug ist, um Sie davon abzulenken, dass der Hintergrund sich nicht ganz so verhält, wie er sollte.

Schauen Sie sich noch einmal das Video der Nachtszene in Tokio an. Diese Szene ist so dicht, dass man leicht alles für bare Münze nehmen kann, aber sehen Sie sich die Menschen im Hintergrund genau an, insbesondere die links vom Motiv:

OpenAI SORA Tokyo night scene background details.

Einige dieser Bewegungen sehen einfach nicht richtig aus. An einer Stelle scheint sich eine Person zu verdoppeln. Später scheint eine Gruppe von Personen zu einem einzigen Objekt zu verschmelzen, als ob sie alle denselben Rock oder Mantel tragen würden. In einigen Bereichen sind auch die Laufanimationen merkwürdig.

Halten Sie Ausschau nach verdächtigen Hintergrundaktivitäten, um KI-generierte Videos zu erkennen. Manchmal werden Sie feststellen, dass natürliche Objekte wie Bäume, Felder oder Wälder auf seltsame Weise interagieren. Die Perspektive kann falsch sein, und manchmal stimmen bewegte Objekte nicht mit dem in der Animation gezeigten Weg überein.

Ein weiteres Beispiel ist die Drohnenaufnahme der Küste von Big Sur von OpenAI. Haben Sie in der Natur schon einmal eine Welle gesehen, die so gerade aussieht?

Beleuchtung und die "KI-Aura"

Dies ist etwas, das wir oft bei KI-generierten Fotos gesehen haben, und es ist wohl eher ein "Gefühl" als ein objektiv identifizierbares Merkmal. Wenn sich die Beleuchtung besonders flach und unnatürlich anfühlt, wo man mehr Varianz erwarten würde, kann das ein Hinweis darauf sein, dass das Foto nicht echt ist.

So fehlen zum Beispiel Kamerafehler wie Blooming (Überstrahlen), Highlight-Blowout (Lichter gehen verloren, weil zu viel Licht in das Objektiv fällt) oder Shadow-Roll-Off (Schatten gehen verloren, weil das Licht fehlt).

Alles kann ein wenig wie ein hochproduziertes Musikvideo oder wie Videospiele aus der Zeit vor realistischer Beleuchtung und Raytracing aussehen. Objekte können auch dann perfekt beleuchtet aussehen, wenn man es eigentlich nicht erwarten würde.

Der Uncanny-Valley-Effekt

Der Unheimliche-Tal-Effekt ist ein Begriff, der die Vermischung von menschlichen und unmenschlichen Zügen in einer Weise beschreibt, die beim Betrachter Unbehagen hervorruft. Androiden oder menschenähnliche Roboter sind oft zitierte Beispiele, da sie äußerlich menschlich wirken, aber gleichzeitig unausweichlich unmenschlich sind.

In den meisten Fällen ist der Unheimliche-Tal-Effekt einfach ein Gefühl. Man spürt, dass etwas nicht stimmt, aber man kann nicht genau sagen, was es ist. Dieser Effekt tritt häufig bei KI-generierten Fotos und Videos auf, und ein Bereich, in dem ich ihn erlebt habe, ist das Raumfahrer-Video von SORA.

Mal abgesehen davon, dass der fragliche Raumfahrer einen gestrickten Weltraumhelm trägt, hat dieses Gesicht etwas an sich, das mir einen Schauer über den Rücken jagt:

OpenAI SORA spaceman with a knitted helmet video demonstrating the uncanny valley effect.

Und es gibt eine ähnlich gruselige Großmutter, die ihre Geburtstagskerzen nicht ausbläst, was in Bewegung noch viel schlimmer aussieht:

OpenAI SORA's nightmare granny.

Achten Sie auf Blödsinn

Dies scheint das am leichtesten zu erkennende Warnsignal zu sein, aber manchmal lässt unser Gehirn die Dinge einfach durchgehen. Das oben erwähnte Weltraummann-Video ist ein gutes Beispiel dafür. Es gibt eine kurze Szene mit einer Tür, einem Griff, einem Hebel oder etwas anderem, das einfach keinen Sinn ergibt:

OpenAI SORA spaceman video depicting a weird object.

Was ist das für ein Ding? Warum wird die Animation scheinbar rückwärts abgespielt? Den gestrickten Helm kann ich entschuldigen, aber dieses Ding hat mich vom ersten Moment an verwirrt.

Das Gleiche gilt für die Bewegungen. Das Video der SORA-Katze im Bett ist beeindruckend, aber die Bewegung stimmt nicht. Katzenbesitzer werden erkennen, dass das Verhalten seltsam und unnatürlich ist. Man hat das Gefühl, dass das Verhalten der Katze nicht mit dem Kontext der Situation übereinstimmt. Mit der Zeit wird sich dies bessern.

Unleserlicher Text ist ein weiteres gutes Beispiel dafür, was generative KI-Prozesse oft falsch machen. Die japanischen Schriftzeichen in SORAs Video der Tokioter Nachtszene sind ein Durcheinander, ebenso wie einige der Straßen- und Ladenschilder. Es war eine kluge Entscheidung von OpenAI, eine Szene zu wählen, in der die meisten Menschen nicht in der Lage sind, Japanisch von einem schlechten Tribut zu unterscheiden.

Trainieren Sie, diese Inhalte besser zu erkennen

Der beste Weg, sich das Erkennen von KI-generierten Inhalten anzutrainieren, ist, sie selbst zu studieren. Die meisten generativen Modelle haben aktive Communities im Internet und auf Social-Media-Plattformen wie Reddit. Suchen Sie sich eine davon aus und schauen Sie sich an, was sich die Leute einfallen lassen.

Darüber hinaus können Sie Ihre eigenen Bilder mit einem Tool wie Stable Diffusion erstellen. Zum Zeitpunkt des Verfassens dieses Artikels ist SORA von OpenAI noch nicht für die Öffentlichkeit zugänglich, so dass Sie warten müssen, bevor Sie selbst einsteigen.

KI-generierte Videos sind gleichermaßen beeindruckend, faszinierend und erschreckend. Mit der Zeit werden diese Tipps wahrscheinlich an Bedeutung verlieren, wenn die Modelle ihre Schwächen überwinden. Also schnallen Sie sich an, denn Sie haben noch nichts gesehen.