Was ist multimodale KI?
Cutting Edge
2024-01-15T14:15:13Z
Wichtigste Erkenntnisse
- Multimodale KI nutzt mehrere Eingabequellen (Text, Bilder, Audio, Sensoren), um bessere Ergebnisse und fortschrittlichere Anwendungen zu erzielen.
- Multimodale KI ist kenntnisreicher und kann verschiedene Eingaben miteinander verknüpfen, um bessere Ergebnisse zu erzielen.
- Beispiele für multimodale KI-Modelle sind Google Gemini, OpenAIs GPT-4V, Runway Gen-2 und Meta ImageBind.
Frühe KI-Modelle beeindruckten durch ihre Fähigkeit, Texteingaben zu interpretieren, aber multimodale KI kann viel mehr. In dem Maße, in dem bestehende Modelle erweitert werden, um mehr Eingabemodalitäten zu akzeptieren, werden die KI-Tools nur noch fortschrittlicher werden.
Was bedeutet "multimodal"?
Das Wort "multimodal" bezieht sich wörtlich auf die Verwendung mehrerer Modi, und im Zusammenhang mit KI bedeutet dies die Verwendung verschiedener Eingabequellen sowohl für das Training als auch für die Gewinnung fundierterer Ergebnisse. Chatbots, die im Jahr 2023 die Welt im Sturm eroberten, konnten nur einen einzigen Eingabemodus verwenden, nämlich Text.
Multimodale KI ist in der Lage, zwei oder mehr Eingabemethoden zu akzeptieren. Dies gilt sowohl für das Training des Modells als auch für die Interaktion mit dem Modell. So könnte man beispielsweise ein Modell darauf trainieren, bestimmte Bilder mit bestimmten Geräuschen zu assoziieren, indem man sowohl Bild- als auch Audiodatensätze verwendet. Gleichzeitig könnten Sie ein Modell bitten, eine Textbeschreibung und eine Audiodatei zu kombinieren, um ein Bild zu erzeugen, das beides repräsentiert.
Mögliche Eingabemodi sind Text, Bilder, Audio oder Informationen von Sensoren wie Temperatur, Druck, Tiefe usw. Diese Modi können innerhalb des Modells priorisiert werden, wobei die Ergebnisse je nach dem beabsichtigten Ergebnis gewichtet werden.
Multimodale Modelle sind eine Weiterentwicklung der unimodalen Modelle, die im Jahr 2023 explosionsartig an Popularität gewannen. Unimodale Modelle sind nur in der Lage, eine Eingabeaufforderung von einem einzigen Input (z. B. Text) entgegenzunehmen. Ein multimodales Modell kann mehrere Eingaben wie eine Beschreibung, ein Bild und eine Audiodatei kombinieren, um bessere Ergebnisse zu erzielen.
Wie ist multimodale KI besser als normale KI?
Multimodale KI ist die logische Weiterentwicklung aktueller KI-Modelle, die "sachkundigere" Modelle ermöglicht. Die Anwendungsmöglichkeiten für diese Modelle sind viel breiter gefächert, sowohl im Hinblick auf die Nutzung durch Verbraucher, das maschinelle Lernen als auch die branchenspezifische Implementierung.
Nehmen wir an, Sie möchten ein neues Bild auf der Grundlage eines von Ihnen aufgenommenen Fotos erstellen. Sie könnten das Foto in eine KI einspeisen und die gewünschten Änderungen beschreiben. Sie könnten auch ein Modell darauf trainieren, Geräusche mit einer bestimmten Art von Bild zu assoziieren oder Assoziationen wie Temperatur zu ziehen. Diese Art von Modellen würde "bessere" Ergebnisse liefern, auch wenn man nur über Text mit ihnen interagiert.
Andere Beispiele sind die Untertitelung von Videos mit Audio und Video, um den Text mit dem Geschehen auf dem Bildschirm zu synchronisieren, oder eine bessere Informationserfassung mit Hilfe von Diagrammen und Infografiken, um die Ergebnisse zu verbessern. Natürlich sollte man immer ein gesundes Maß an Skepsis bewahren, wenn man sich mit einem Chatbot unterhält.
Die multimodale KI hält allmählich Einzug in die Alltagstechnologie. Mobile Assistenten könnten durch den Einsatz multimodaler Modelle erheblich verbessert werden, da der Assistent über mehr Datenpunkte und zusätzlichen Kontext verfügt, um bessere Annahmen zu treffen. Ihr Smartphone verfügt bereits über Kameras, Mikrofone, Licht- und Tiefensensoren, ein Gyroskop und einen Beschleunigungsmesser, Geolokalisierungsdienste und eine Internetverbindung. All dies könnte einem Assistenten im richtigen Kontext nützlich sein.
Die Auswirkungen auf die Industrie sind enorm. Stellen Sie sich vor, Sie trainieren ein Modell, um eine Art von Wartungsaufgabe unter Verwendung mehrerer Eingaben durchzuführen, so dass es bessere Entscheidungen treffen kann. Wird ein Bauteil heiß? Sieht das Bauteil abgenutzt aus? Ist es lauter als es sein sollte? Dies kann mit grundlegenden Informationen wie dem Alter des Bauteils und seiner durchschnittlichen Lebensdauer kombiniert werden, dann können die Eingaben gewichtet werden, um zu vernünftigen Schlussfolgerungen zu gelangen.
Einige Beispiele für multimodale KI
Google Gemini ist vielleicht eines der bekanntesten Beispiele für multimodale KI. Das Modell war nicht unumstritten, und ein Ende 2023 veröffentlichtes Video, das das Modell demonstrierte, wurde von Kritikern als "Fälschung" bezeichnet. Google gab zu dass das Video bearbeitet wurde, dass die Ergebnisse auf Standbildern basierten und nicht in Echtzeit stattfanden und dass die Aufforderungen durch Text und nicht laut gesprochen wurden.
Entwickler können Gemini bereits heute nutzen, indem sie einfach einen API-Schlüssel in Google AI Studio beantragen. Der Dienst wurde auf einer "Kostenlos für alle"-Ebene mit einem Limit von bis zu 60 Abfragen pro Minute eingeführt. Um den Dienst einzurichten, benötigen Sie gute Python-Kenntnisse(hier finden Sie ein gutes Tutorial für den Einstieg).
Dennoch ist Gemini ein vielversprechendes multimodales KI-Modell, das auf Audio, Bilder, Videos, Code und Text in verschiedenen Sprachen trainiert wurde. Es konkurriert mit dem GPT-4 von OpenAI, das sowohl Text- als auch Bildaufforderungen akzeptieren kann. Das Modell ist auch als GPT-4V bekannt (wobei das V für Vision steht) und steht ChatGPT Plus-Nutzern über die OpenAI-Website, mobile Apps und API zur Verfügung.
Sie können GPT-4V kostenlos über Bing Chat verwenden, um Bilder hochzuladen oder Fotos von der Kamera oder Webcam Ihres Geräts aufzunehmen. Klicken Sie einfach auf das Bildsymbol im Feld "Fragen Sie mich etwas...", um ein Bild an Ihre Anfrage anzuhängen.
Zu den anderen multimodalen Modellen gehört Runway Gen-2, ein Modell, das Videos auf der Grundlage von Texteingaben, Bildern und vorhandenen Videos produziert. Derzeit sehen die Ergebnisse noch sehr künstlich aus, aber als Proof-of-Concept ist es dennoch ein interessantes Tool zum Ausprobieren.
Meta ImageBind ist ein weiteres multimodales Modell, das Text, Bilder und Audio sowie Heatmaps, Tiefeninformationen und Trägheit akzeptiert. Es lohnt sich, die Beispiele auf der ImageBind-Website anzuschauen, um einige interessante Ergebnisse zu sehen (z. B. wie Audioaufnahmen von gießendem Wasser und ein Foto von Äpfeln zu einem Bild von Äpfeln kombiniert werden können, die in einem Waschbecken gewaschen werden).
Die Einführung multimodaler KI-Modelle ist eine schlechte Nachricht für alle, die schon genug von dieser Technologie gehört haben, und sie wird Unternehmen wie OpenAI noch eine Weile in den Schlagzeilen halten. Die eigentliche Frage ist jedoch, wie Unternehmen wie Apple, Google, Samsung und andere große Unternehmen diese Technologie nach Hause und in die Hände der Verbraucher bringen werden.
Letztendlich müssen Sie nicht wissen, dass Sie mit einem weiteren KI-Schlagwort interagieren, um von den Vorteilen zu profitieren. Und außerhalb der Unterhaltungselektronik könnte das Potenzial in Bereichen wie der medizinischen Forschung, der Arzneimittelentwicklung, der Krankheitsvorbeugung, dem Ingenieurwesen usw. die größten Auswirkungen haben.