Nachdem KI-Erzeugnisse nach dem Text-zu-Bild-Prinzip schon fast alltäglich geworden sind, bekommen wir es mit Text-zu-Video zu tun. In schöner Regelmässigkeit postet jemand auf Twitter eine Reihe von Beispielen, bei denen unbewegte Memes in Videosequenzen verwandelt wurden.
Auf den ersten Blick denken wir «Wow!» Beim zweiten oder dritten Mal abspielen fällt uns auf, wie die Glaubwürdigkeit abnimmt, je länger das Video läuft und je mehr Elemente die Software dazu erfinden muss.
Doch um zu wissen, was Sache ist, sollten wir uns nicht auf die Beispiele aus dem Netz verlassen, sondern selbst Testläufe durchführen. Das habe ich versucht. Die Resultate sind durchwachsen – objektiv zwar deutlich besser bei meinem ersten Versuch vor einem Jahr. Doch es hat sich eben auch unsere Haltung verändert:
Aber euch interessieren jetzt natürlich die konkreten Ergebnisse. Doch vorab noch kurz etwas zu meinem Prompt. Ich verwende wieder den von elektrischen Schafen träumenden Androiden, der als Reminiszenz an Philip K. Dick zu verstehen ist. Er zeigt schön auf, ob die Software in der Lage ist, einen Sachverhalt umzusetzen, der eine konkrete Ebene (Android im Bett) und ein abstraktes Element hat (eine Traumblase mit einem Schaf, das irgendwie elektrisch wirkt).
Und es gibt eine schöne Vergleichsmöglichkeit, da ich dieses Motiv schon früher benutzt habe (hier, hier, hier und hier). Da ich auch ein bisschen etwas gelernt habe, fällt der Prompt heute konkreter aus¹.
1) Hailuoai.com: In Ansätzen brauchbarEine der Apps, die mir via Twitter angepriesen wurde, findet sich unter hailuoai.com/video. Die Website ist chinesisch, doch mit Google Translate kommen wir weiter. Das Resultat wäre gut, wenn sich die Traumblase über dem Kopf des Androiden befände – was sich in einer Verfeinerung des Prompts natürlich angeben liessen. Dass der Android die Augen öffnet, stört ebenfalls ein bisschen. Die elektrischen Schafe sind mir nicht elektrisch genug, aber Ansätze sind zu erkennen.
https://blog.clickomania.ch/wp-content/uploads/2024/09/240905-Android-hailuoai-com-1.mp42) Canva.com: Ein Schaf-Android im SeifenblasenlandDie Online-Gestaltungsplattform Canva – vor Urzeiten hier vorgestellt – hat ein auf Runway basierendes Text-zu-Video-Tool. Ein Versuch offenbart gröbere Verständnisschwierigkeiten: Statt einer Traumblase erscheinen Seifenblasen und der Android wird mit dem Schaf zu einem süssen, aber etwas seltsamen Mischwesen verschmolzen.
https://blog.clickomania.ch/wp-content/uploads/2024/09/240905-Android-Canva-com-01.mp4Bei einem weiteren Anlauf ist dieses Video herausgekommen, dass ebenfalls nicht als gelungen betrachtet werden kann, aber euch wegen seiner Niedlichkeit nicht vorenthalten werden soll:
https://blog.clickomania.ch/wp-content/uploads/2024/09/240905-Android-Canva-com-02-2.mp43) Invideo.io: Ein 45-sekündiges GeseierDie App auf invideo.io verblüfft mich damit, dass das fertige Video 138 MB gross ist – und 45 Sekunden lang. Erzeugt wurde nicht etwa eine Sequenz, sondern eine Art Kurzfilm. Ein Sprecher erzählt von dem Androiden, der von elektrischen Schafen träumt, während iStock-Bilder aneinandergereiht werden. Das ist nicht das, was ich wollte – und auch nichts, was ich irgendjemanden würde zumuten wollen.
4) Gescheitert vor dem TestIch habe auch einige Lösungen ausprobiert, bei denen kein Video herausgekommen ist:
Das zeigt nebenbei eine Nebenwirkung des KI-Hypes: Die Unterscheidung zwischen ernsthaften Produkten und Nepp-Angeboten wird zunehmend mühsam.
Fussnoten1) «Ein Androide (Roboter) liegt in einem Bett und schläft. Eine über seinem Kopf schwebende Blase stellt den Traum dar, den er träumt. In dieser Blase befinden sich drei Schafe. Von Zeit zu Zeit blitzen elektrische Funken auf, weil die Schafe unter Strom stehen.» ↩
Beitragsbild: Die denken nicht daran, in elektrifizierter Form im Traum eines Androiden aufzutauchen (Ariana Prestes, Unsplash-Lizenz).
https://blog.clickomania.ch/2024/09/20/text-to-video-ai-generation-test/
GNU social JP is a social network, courtesy of GNU social JP管理人. It runs on GNU social, version 2.0.2-dev, available under the GNU Affero General Public License.
All GNU social JP content and data are available under the Creative Commons Attribution 3.0 license.