Was ist der aktuelle Stand bei KI in Foto und Bewegtbild?

Riesiger Raum für Experimente

von Gunter Becker, 21. Januar 2024

Künstliche Intelligenz ist auf dem Vormarsch, auch bei Foto und Bewegtbild. Wir sprachen für unsere Ausgabe 12.2023 mit dem Berliner Fotografen und Philosophen Boris Eldagsen über den aktuellen Stand bei der KI-Bewegtbildgenerierung und deren mögliche Auswirkungen auf die Branche.

Mit KI erstelltes Foto von Menschen auf einem Strand — „Beautiful People“ (Foto: Boris Eldagsen)

Boris Eldagsen machte im April weltweit Schlagzeilen, als er in London auf offener Bühne die Annahme des Sony World Photography Awards ablehnte. Eldagsen hatte ein KI-generiertes Bild eingereicht, damit gewonnen und wollte dann das Verhältnis von KI und Fotografie öffentlich diskutieren. Das Festival verweigerte das. So gab Eldagsen den Preis zurück. Bereits vor der Aktion war er ein gefragter Experte für die Bilderstellung mittels künstlicher Intelligenz. Er ist KI-Experte bei der Deutschen Fotografischen Akademie und berät und lehrt weltweit. Inzwischen beschäftigt er sich auch intensiv mit KI-generierten Bewegtbildern.

Herr Eldagsen, Sie werden seit Ihrer Rückgabe des Sony Award von den Medien belagert, waren bereits davor als KI-Erklärer überall gefragt. Hatte ihr Coup die gewünschte Wirkung? Wird der Einsatz von KI- generierter Fotografie stärker diskutiert und hinterfragt? Gibt es erste Regelwerke?
Meine Aktion wurde zu einer Nachricht in den News weltweit, weit über die Fotoszene hinaus. Inzwischen haben Fotowettbewerbe ihre Guidelines so verändert, dass dort auch KI-generierte Bilder eingereicht werden können oder sie haben separate Wettbewerbe dafür eingerichtet. Gesellschaftlich wächst das Bewusstsein dafür, dass man Bildern, zum Beispiel aus der aktuellen Berichterstattung oder den sozialen Medien, unter Umständen gar nicht mehr ansehen kann, ob sie authentisch sind oder generiert wurden. Es wird auch überlegt, wie man ein Qualitätslabel einführen kann, mit dem authentische Bilder kenntlich gemacht werden können.
Ich habe inzwischen mit der KI-Gruppe im Deutschen Fotorat ein Papier dazu entwickelt, wir haben uns europäisch vernetzt und wir sprechen die Digitalexperten der Parteien und die Medienhäuser an. Letztere müssen jetzt klären, wie sie ihre Workflows organisieren, den Einsatz KI-generierter Fotos an die Leser kommunizieren und ob sie eine Kennzeichnung einführen.
Die Bildredaktionen haben bisher gar nicht auf dem Schirm, dass ihre schlecht bezahlten Fotojournalisten ja oft kommerzielle Zweitjobs machen. Diese Zweitjobs brechen weg, weil frühere Auftraggeber wie etwa Werbeagenturen dieses Bilder mehr und mehr selbst generieren als fotografieren lassen. Außerdem müssen sie den Einsatz solcher Bilder auch ihrem Publikum deutlich machen. Die Bürger müssen für diese Problematik ein Bewusstsein entwickeln.
Die Medienhäuser verlagern die Verantwortung noch auf die Bildlieferanten und Agenturen. Ich befürchte, dass hier weder die Medien noch die Politiker aktiv werden und dass der Fotorat vorpreschen muss, um die anderen an runde Tische und in die Arbeitsgruppen zu bekommen.

Boris Eldagsen im Selbstporträt (Foto: Boris Eldagsen)

Wie weit verfolgen Sie die Entwicklung bei KI-generierten Videos? Hatten Sie das von der Firma Runways ML organsierte KI-Filmfestival in New York, im März, wahrgenommen?
Ich arbeite selbst seit vielen Jahren auch mit Bewegtbild und verfolge die Entwicklung intensiv. Gerade im kommerziellen Produktionsbereich, wo man mit Baukastensystemen Erklär- und Marketingfilme für kleinere und mittelgroße Kunden bauen kann, wo man Avatare anstelle von Schauspielern einsetzen und Texte von der KI in allen möglichen Sprachen einsprechen lassen kann – überall da ist der KI-Einsatz extrem auf dem Vormarsch.

Welche Bedienungsmöglichkeiten haben Anwender bei der KI-Videoerzeugung?
Künstlerisch interessant sind für mich die beiden Eingabeverfahren Video zu Video und Text zu Video. Bei Video zu Video habe ich eine bereits gefilmte Sequenz, die die KI dann in eine andere Umgebung übersetzen kann. Zentrale Elemente der Handlung und Kamerabewegungen bleiben. Ein Beispiel: Ich schwenke über meinen Frühstückstisch mit Kaffeekanne, Milchtüte und Kaffeetassen und sage der KI dann: „Mache daraus einen Schwenk über die Skyline von New York.“ Die Milchtüte verwandelt sich dann zum Empire State Building.
Bei Text zu Video beschreibe ich in einem sogenannten Prompt, einem Textbaustein, was die KI tun soll. Ich habe dafür mittlerweile ein eigenes System, eine „Promptologie“mit inzwischen 13 Elemente definiert. Übersetzt aufs Filmemachen entspräche ein Prompt-Element vielleicht dem Genre, also Doku oder Film noir. Ein anderes Element wäre der Look, also etwa Cinemascope oder 3D-Rendering Games-Look oder VHS-Videomaterial. Mit einem anderen Element könnte ich den Kameratyp definieren, auch analoge Kameras. Zudem die Perspektive, das Licht, den Bildaufbau. Dann könnte ich den Ort und die Handlung definieren: „Hund frisst Pizza hinterm Bahnhof“, dann vielleicht noch den Regiestil oder den Stil des Kameramanns. Erfahrene Filmemacher können dann beim Prompten ihre Referenzen benutzen. Alle anderen texten nur „Hund frisst Pizza“ und geben der KI alle Freiheiten.

Mit KI erstellte Fotos von zwei Frauen — „Pseudomnesia III“ entstand mit einem KI-gestützten Verfahren, das Boris Eldagsen „Promptography“ nennt. (Fotos: Boris Eldagsen)

Lassen Sie uns das an einem konkreten Beispiel, etwa am KI-erzeugten Kurzfilm „The Frost“ von der US Videosoftware-Schmiede Waymark festmachen.
Nehmen wir als Beispiel die Sequenz eines Mannes, der auf einen Berg schaut und sagt: „Da ist irgendetwas.“ Ein anderer Mann antwortet ihm: „Wir können da nicht hochgehen.“ Dazu wurden die Charaktere als Bild generiert und hochgeladen, dann tippt man den Dialog ein und sucht Stimmen aus und dann wird das auf der Plattform so animiert, dass die Sequenz entsteht. Die Bilder wurden mit DALL-E-2 generiert und mit D-ID animiert.

Bei „Frost“ und auch anderen KI-Videos fallen einem die oft eintönigen, sich wiederholenden Kamera- bewegungen auf. Ist das Phänomen der Fantasielosigkeit der Kreatoren oder den Beschränkungen der Software geschuldet?
Es gibt Plattformen mit Kacheln für bestimmte Kamerabewegungen, etwa Reinzoomen und Rauszoomen, Schwenk, Fahrt. Aber selbst um die gut einzusetzen, muss ich natürlich eine Ahnung der filmischen Abläufe und von Script, Kamera, Schnitt haben. Generell arbeiten diese ersten Lsungen noch sehr rudimentär, fast so wie einfache Animationsfilme. Man lädt ein Ausgangsbild hoch, dann erstellt Stable Diffusion Variationen, dann wird das animiert. Fast wie bei einem Daumenkino.
Die Tools können noch nicht so viel. Die meisten bekommen bisher nur recht einfache Animationen hin, etwa D-ID oder Gen 2. Ich selbst experimentiere gerade mit verschiedenen Lösungen und habe erst ein Tool, nämlich Kaiber.ai, gefunden, das insgesamt acht Kamerabewegungen beherrscht, etwa Zoom in, Zoom out, Rotation mit und gegen den Uhrzeigersinn oder Ähnliches.

Welche Plattformen sollten sich Interessierte ansehen?
Am besten gefallen mir bisher die Runway ML-Lösungen Gen 1 und Gen 2. Gen 1 beherrscht Video to Video und Gen 2 kann Text to Video. Dann sollte man sich Kaiber und Genmo ansehen und D-ID als bisher beste Lösung um Bilder, Text und Sprache zu synchronisieren. Damit kann man sogar die Sprechgeschwindigkeit verändern. Auch den AI Video Generator HeyGen sollte man mal testen. Mit diesen Tools werde ich bei meinen künstlerischen Projekten weiterarbeiten. Alle diese Varianten richten sich noch an eine recht breite Masse von Nutzern, nicht explizit an Filmemacher. Sie setzen alle auf die Open-Source-KI Stable Diffusion auf. Interessant wird es, sobald sich auch die anderen großen Plattformen wie etwa Midjourney in dem Bereich Bewegtbild engagieren werden.

Für die Bildgenerierung interessant: Gerade hat Midjourney mit der Lösung Zoom erstmals ein Outpainting ermöglicht. DALL-E kann bereits seit dem letzten Sommer Inpainting und Outpainting. Photoshop hat dafür Generative Fill integriert. Diese Anbieter werden sich auch stärker im Bewegtbildbereich engagieren – das wird schnell kommen. Darüber hinaus gibt es wahnsinnig viele Lösungen, die einfache Business-Videos produzieren können. Dort gebe ich meine Produkte ein und die generieren dann einen Fließtext über GPT, suchen für den Hintergrund ein Set aus Templates und Bildern und bauen alles zusammen. Das ist für das Marketing kleiner und mittlerer Unternehmen gedacht und für die Nutzung muss man nicht besonders filmaffin sein. [15398]

Möchten Sie mehr über KI in der Bewegtbilderstellung erfahren? Hier geht es zum kompletten Interview!

Schreibe einen Kommentar Antworten abbrechen

Datenschutzbestimmungen