Was ist der aktuelle Stand bei KI in Foto und Bewegtbild?
Riesiger Raum für Experimente
von Gunter Becker,
Künstliche Intelligenz ist auf dem Vormarsch, auch bei Foto und Bewegtbild. Wir sprachen für unsere Ausgabe 12.2023 mit dem Berliner Fotografen und Philosophen Boris Eldagsen über den aktuellen Stand bei der KI-Bewegtbildgenerierung und deren mögliche Auswirkungen auf die Branche.
Boris Eldagsen machte im April weltweit Schlagzeilen, als er in London auf offener Bühne die Annahme des Sony World Photography Awards ablehnte. Eldagsen hatte ein KI-generiertes Bild eingereicht, damit gewonnen und wollte dann das Verhältnis von KI und Fotografie öffentlich diskutieren. Das Festival verweigerte das. So gab Eldagsen den Preis zurück. Bereits vor der Aktion war er ein gefragter Experte für die Bilderstellung mittels künstlicher Intelligenz. Er ist KI-Experte bei der Deutschen Fotografischen Akademie und berät und lehrt weltweit. Inzwischen beschäftigt er sich auch intensiv mit KI-generierten Bewegtbildern.
Herr Eldagsen, Sie werden seit Ihrer Rückgabe des Sony Award von den Medien belagert, waren bereits davor als KI-Erklärer überall gefragt. Hatte ihr Coup die gewünschte Wirkung? Wird der Einsatz von KI- generierter Fotografie stärker diskutiert und hinterfragt? Gibt es erste Regelwerke? Meine Aktion wurde zu einer Nachricht in den News weltweit, weit über die Fotoszene hinaus. Inzwischen haben Fotowettbewerbe ihre Guidelines so verändert, dass dort auch KI-generierte Bilder eingereicht werden können oder sie haben separate Wettbewerbe dafür eingerichtet. Gesellschaftlich wächst das Bewusstsein dafür, dass man Bildern, zum Beispiel aus der aktuellen Berichterstattung oder den sozialen Medien, unter Umständen gar nicht mehr ansehen kann, ob sie authentisch sind oder generiert wurden. Es wird auch überlegt, wie man ein Qualitätslabel einführen kann, mit dem authentische Bilder kenntlich gemacht werden können.
Ich habe inzwischen mit der KI-Gruppe im Deutschen Fotorat ein Papier dazu entwickelt, wir haben uns europäisch vernetzt und wir sprechen die Digitalexperten der Parteien und die Medienhäuser an. Letztere müssen jetzt klären, wie sie ihre Workflows organisieren, den Einsatz KI-generierter Fotos an die Leser kommunizieren und ob sie eine Kennzeichnung einführen.
Die Bildredaktionen haben bisher gar nicht auf dem Schirm, dass ihre schlecht bezahlten Fotojournalisten ja oft kommerzielle Zweitjobs machen. Diese Zweitjobs brechen weg, weil frühere Auftraggeber wie etwa Werbeagenturen dieses Bilder mehr und mehr selbst generieren als fotografieren lassen. Außerdem müssen sie den Einsatz solcher Bilder auch ihrem Publikum deutlich machen. Die Bürger müssen für diese Problematik ein Bewusstsein entwickeln.
Die Medienhäuser verlagern die Verantwortung noch auf die Bildlieferanten und Agenturen. Ich befürchte, dass hier weder die Medien noch die Politiker aktiv werden und dass der Fotorat vorpreschen muss, um die anderen an runde Tische und in die Arbeitsgruppen zu bekommen.
Wie weit verfolgen Sie die Entwicklung bei KI-generierten Videos? Hatten Sie das von der Firma Runways ML organsierte KI-Filmfestival in New York, im März, wahrgenommen?
Ich arbeite selbst seit vielen Jahren auch mit Bewegtbild und verfolge die Entwicklung intensiv. Gerade im kommerziellen Produktionsbereich, wo man mit Baukastensystemen Erklär- und Marketingfilme für kleinere und mittelgroße Kunden bauen kann, wo man Avatare anstelle von Schauspielern einsetzen und Texte von der KI in allen möglichen Sprachen einsprechen lassen kann – überall da ist der KI-Einsatz extrem auf dem Vormarsch.
Welche Bedienungsmöglichkeiten haben Anwender bei der KI-Videoerzeugung?
Künstlerisch interessant sind für mich die beiden Eingabeverfahren Video zu Video und Text zu Video. Bei Video zu Video habe ich eine bereits gefilmte Sequenz, die die KI dann in eine andere Umgebung übersetzen kann. Zentrale Elemente der Handlung und Kamerabewegungen bleiben. Ein Beispiel: Ich schwenke über meinen Frühstückstisch mit Kaffeekanne, Milchtüte und Kaffeetassen und sage der KI dann: „Mache daraus einen Schwenk über die Skyline von New York.“ Die Milchtüte verwandelt sich dann zum Empire State Building.
Bei Text zu Video beschreibe ich in einem sogenannten Prompt, einem Textbaustein, was die KI tun soll. Ich habe dafür mittlerweile ein eigenes System, eine „Promptologie“mit inzwischen 13 Elemente definiert. Übersetzt aufs Filmemachen entspräche ein Prompt-Element vielleicht dem Genre, also Doku oder Film noir. Ein anderes Element wäre der Look, also etwa Cinemascope oder 3D-Rendering Games-Look oder VHS-Videomaterial. Mit einem anderen Element könnte ich den Kameratyp definieren, auch analoge Kameras. Zudem die Perspektive, das Licht, den Bildaufbau. Dann könnte ich den Ort und die Handlung definieren: „Hund frisst Pizza hinterm Bahnhof“, dann vielleicht noch den Regiestil oder den Stil des Kameramanns. Erfahrene Filmemacher können dann beim Prompten ihre Referenzen benutzen. Alle anderen texten nur „Hund frisst Pizza“ und geben der KI alle Freiheiten.
Lassen Sie uns das an einem konkreten Beispiel, etwa am KI-erzeugten Kurzfilm „The Frost“ von der US Videosoftware-Schmiede Waymark festmachen.
Nehmen wir als Beispiel die Sequenz eines Mannes, der auf einen Berg schaut und sagt: „Da ist irgendetwas.“ Ein anderer Mann antwortet ihm: „Wir können da nicht hochgehen.“ Dazu wurden die Charaktere als Bild generiert und hochgeladen, dann tippt man den Dialog ein und sucht Stimmen aus und dann wird das auf der Plattform so animiert, dass die Sequenz entsteht. Die Bilder wurden mit DALL-E-2 generiert und mit D-ID animiert.
Bei „Frost“ und auch anderen KI-Videos fallen einem die oft eintönigen, sich wiederholenden Kamera- bewegungen auf. Ist das Phänomen der Fantasielosigkeit der Kreatoren oder den Beschränkungen der Software geschuldet? Es gibt Plattformen mit Kacheln für bestimmte Kamerabewegungen, etwa Reinzoomen und Rauszoomen, Schwenk, Fahrt. Aber selbst um die gut einzusetzen, muss ich natürlich eine Ahnung der filmischen Abläufe und von Script, Kamera, Schnitt haben. Generell arbeiten diese ersten Lsungen noch sehr rudimentär, fast so wie einfache Animationsfilme. Man lädt ein Ausgangsbild hoch, dann erstellt Stable Diffusion Variationen, dann wird das animiert. Fast wie bei einem Daumenkino.
Die Tools können noch nicht so viel. Die meisten bekommen bisher nur recht einfache Animationen hin, etwa D-ID oder Gen 2. Ich selbst experimentiere gerade mit verschiedenen Lösungen und habe erst ein Tool, nämlich Kaiber.ai, gefunden, das insgesamt acht Kamerabewegungen beherrscht, etwa Zoom in, Zoom out, Rotation mit und gegen den Uhrzeigersinn oder Ähnliches.
Welche Plattformen sollten sich Interessierte ansehen?
Am besten gefallen mir bisher die Runway ML-Lösungen Gen 1 und Gen 2. Gen 1 beherrscht Video to Video und Gen 2 kann Text to Video. Dann sollte man sich Kaiber und Genmo ansehen und D-ID als bisher beste Lösung um Bilder, Text und Sprache zu synchronisieren. Damit kann man sogar die Sprechgeschwindigkeit verändern. Auch den AI Video Generator HeyGen sollte man mal testen. Mit diesen Tools werde ich bei meinen künstlerischen Projekten weiterarbeiten. Alle diese Varianten richten sich noch an eine recht breite Masse von Nutzern, nicht explizit an Filmemacher. Sie setzen alle auf die Open-Source-KI Stable Diffusion auf. Interessant wird es, sobald sich auch die anderen großen Plattformen wie etwa Midjourney in dem Bereich Bewegtbild engagieren werden.
Für die Bildgenerierung interessant: Gerade hat Midjourney mit der Lösung Zoom erstmals ein Outpainting ermöglicht. DALL-E kann bereits seit dem letzten Sommer Inpainting und Outpainting. Photoshop hat dafür Generative Fill integriert. Diese Anbieter werden sich auch stärker im Bewegtbildbereich engagieren – das wird schnell kommen. Darüber hinaus gibt es wahnsinnig viele Lösungen, die einfache Business-Videos produzieren können. Dort gebe ich meine Produkte ein und die generieren dann einen Fließtext über GPT, suchen für den Hintergrund ein Set aus Templates und Bildern und bauen alles zusammen. Das ist für das Marketing kleiner und mittlerer Unternehmen gedacht und für die Nutzung muss man nicht besonders filmaffin sein. [15398]