Googles neues Modell Imagen 2 kann Videos generieren

Cutting Edge
2024-04-09T17:01:33Z

Es ist noch nicht allzu lange her, dass OpenAI Sora vorstellte, das viele Menschen mit seiner Fähigkeit, (einigermaßen) realistische Videoclips aus Texteingaben zu erstellen, beeindruckte und erschreckte. Die KI-Bilderzeugung wurde in den letzten Monaten stark verfeinert, und wie zu erwarten, ist der nächste natürliche Schritt das Video. Google bringt auch eigene Methoden zur Videoerstellung auf den Markt, wobei neue KI-Modelle unter dem Dach von Imagen 2 ebenfalls Großes versprechen.

Google hat Imagen 2 vorgestellt, eine Familie von Modellen innerhalb seiner Vertex-KI-Plattform. Google geriet in die Kritik, weil sein Bilderzeugungsmodell in Gemini ein ziemlicher Müllhaufen war. Es wurde entfernt, und obwohl Gemini Imagen 2 nicht enthält (zumindest nicht sofort), enthält es eine Reihe von Verbesserungen, die es insgesamt besser für die Erzeugung von Bildern oder sogar Videos machen.

Zu den Erweiterungen von Imagen 2 gehören Funktionen zum Ein- und Ausmalen, die Bildmanipulationen wie das Entfernen unerwünschter Elemente oder das Hinzufügen neuer Komponenten ermöglichen. Die wichtigste Neuerung ist jedoch die Einführung von "Text-to-Live-Bildern", mit denen kurze Videos aus Texteingaben erstellt werden können.

Sie sollten jedoch bedenken, dass dies nicht Sora ist. Verglichen mit bestehenden Tools zur Videoerstellung könnten die Möglichkeiten von Imagen 2 in Bezug auf Auflösung und Anpassungsoptionen zu kurz kommen. Wir müssen abwarten, wie gut es sich in der Praxis bewährt. Es ist auch ein wenig technisch, aber es erzeugt "Live-Bilder", also kurze 4-Sekunden-Clips. Es ist jedoch ein Anfang und könnte in den nächsten Monaten oder Jahren als Grundlage für ein echtes Text-zu-Video-Modell dienen.

Um den Bedenken hinsichtlich Deepfakes entgegenzuwirken, wendet Google die SynthID-Technologie an, um kryptografische Wasserzeichen auf Live-Bilder anzuwenden und so für Authentizität und Sicherheit zu sorgen. Obwohl Google den Schwerpunkt auf Sicherheitsmaßnahmen legt, bleiben Fragen bezüglich der Effektivität seines Ansatzes und der Transparenz der Trainingsdatenquellen offen. Das Fehlen eines Opt-Out-Mechanismus für Urheber, deren Werke in den Trainingsdaten enthalten sein könnten, könnte bei einigen für Kopfschütteln sorgen. Darüber hinaus deckt die Entschädigungsrichtlinie von Google für generative KI keine Text-to-Live-Bilder ab, so dass die Kunden potenziellen Urheberrechtsansprüchen ausgesetzt sind.

Wir müssen abwarten, ob Google diese Daten in irgendeiner Form öffentlich zugänglich macht. Vielleicht erfahren wir mehr, wenn die Google I/O ansteht.

Quelle: TechCrunch