Anzeige
Anzeige
Kay Delventhal experimentiert mit LLMs zur Beschleunigung seiner VFX-Breakdowns

Schnelles Ergebnis, langsames Lernen

VFX-Supervisor Kay Delventhal verblüffte auf der Film & Media Exchange im April 2024 mit einem selbst konzipierten System. Er hatte mit einer Instanz von ChatGTP einen experimentellen Workflow entwickelt, der es ihm erlaubte, aus Drehbüchern die wahrscheinlichen visuellen Effekte herauszulesen und als VFX-Notes in Auszügen zusammenzufassen. In unserer Ausgabe 12.2024 erklärte Delventhal seinen Aufbau, worin dieser gut ist und warum er sich mit einem halbautomatischen Prozess begnügt.

KI-erstellte Grafik zu Thema "KI im Film"
Grafik: Kay Delventhal / Dall-E3

Wenn heute von künstlicher Intelligenz gesprochen wird, sind meist sogenannte Large Language Models LLMs gemeint. LLMs oder auch kurz Modelle sind computerlinguistische Wahrscheinlichkeitsmodelle. Diese berechnen nach statistischen Algorithmen Wort- und Satzfolge-Beziehungen. Die Basis dafür sind exorbitant hohe Mengen von Texten, aus denen das Modell durch linguistische Analyse Daten extrahiert hat. Nach einem bestimmten Thema befragt, kann also die LLM auf Grundlage dieser Daten statistisch errechnen, welches wohl die wahrscheinlichste Antwort sein würde. Wenn man es so formuliert, klingt KI schon gar nicht mehr so sexy.

Entwicklungen

Dennoch sind LLMs in jüngster Vergangenheit aufgrund der immens gestiegenen Rechenpower und dem Fortschritt der trainierenden Systeme zu verblüffenden Ergebnissen fähig. Das fiel vor einigen Jahren auch Kay Delventhal auf. Der VFX Supervisor ist studierter Ingenieur, seit 2021 Data Scientist und seit den 1990er Jahren in der VFX tätig, mittlerweile als VFX Supervisor. Das Programmieren gehörte für ihn ab der Implementierung von MEL als eigener Programmiersprache in Maya und später Python auch in der VFX dazu. Als dann vor rund acht Jahren TensorFlow 2 veröffentlich wurde, hatte er erstmals das Gefühl, hier bahne sich ein Durchbruch an. Für ihn war es die hohe Bedienerfreundlichkeit und die Eignung für handelsübliche Computersysteme, die der Gamechanger waren. Von da an überschlugen sich die Entwicklungen bis zur Wahrnehmung im Mainstream mit dem Hype um ChatGPT-3 in 2022.

Delventhal wollte wissen, ob ChatGPT ihm im VFX-Breakdown-Workflow helfen könnte. Die ersten Tests entstanden 2023 auf ChatGPT-4. Delventhal stellte zunächst ganz grundlegende Fragen: „Was sind Visual Effects?“, „Was macht ein Visual Effects Supervisor?“ Dabei fand er heraus, dass das LLM in seinem Fachbereich schon sehr genau Definitionen vornehmen konnte. Das ermutigte ihn, mit ein wenig Feintuning sein Projekt anzugehen. Als er Anfang 2024 beruflich wenig zu tun hatte, nutzte er die Zeit.. „Ich habe mich dann kurzfristig entschieden, nicht nur zu lesen, nicht nur zu reden, sondern zu machen“, so Delventhal. Er gab sich ein Zeitfenster von maximal drei Monaten bis zum nächsten Job und legte los.

VFX Supervisor und Data Scientist Kay Delventhal bei seinem Talk auf der FMX 2024
VFX Supervisor und Data Scientist Kay Delventhal bei seinem Talk auf der FMX 2024 (Foto: FMX / Dominique Brewing)

Ausgangslage

Die Motivation für Delventhal war einerseits, selbst ein Forschungsprojekt auf die Beine zu stellen, um zu lernen, andererseits, um dies auch als eine seiner Expertisen zukünftig in den Vordergrund stellen zu können. Sein konkretes Ziel war, mit Hilfe von LLMs aus Drehbüchern halb-automatisiert die VFX-Breakdowns zu erstellen, was in seinem Berufsalltag noch manuell nach Lesen des Drehbuchs erfolgte. Die erste Frage, die Delventhal dabei beantworten musste: „Kann KI VFX in Drehbüchern finden?“ Dafür analysierte er zunächst seine bisherige Vorgehensweise. Drehbücher erhält er in PDF-Form, die oft aus Drehbuchprogrammen wie FinalDraft oder Drama-Queen stammen. In diesen Dateien macht Delventhal dann seine Markierungen, schreibt Kommentare und Fragen an das Kreativteam. In einer Excel-Datei sammelt er alle aus dem Text extrahierbaren Parameter in Kategorien jeweils in einer Spalte für jede Szene, dies auf der Basis von Gesprächen mit den verschiedenen Gewerken wie Regie, DoPs, Locationcrew oder Stuntleuten. Das Lesen, Sammeln der Informationen und das Füllen des Excel-Sheets dauert für gewöhnlich bis zu zwei Tage.

Allerdings ist die Identifikation von VFX-Szenen ein subjektiver Prozess. Denn ob in einer Szene ein visueller Effekt nötig wird, hängt vom Budget, der Machbarkeit, manchmal auch der Sicherheit und schließlich der Kreativität der­ Filmemacher ab. Ein Stunt zum Beispiel kann theoretisch allein von einer Stuntperson umgesetzt werden. Dann wird kein VFX benötigt. Ein etwas komplexerer Stunt erfordert vielleicht den Einsatz eines Sicherheitsrigs, dessen Drähte später digital retuschiert werden müssen. Ist der Stunt so gefährlich, dass ein Mensch ihn nicht umsetzen kann, wird ein digitales Double eingesetzt, das größtmögliche Maß an VFX für diesen Fall. Doch all das steht nicht im Drehbuch, sondern ist Ergebnis der subjektiven Interpretation.

Grafik des KI-Workflows

Aufbau des Workflows

„Ich brauche ein System, das ein gewisses Maß an Verständnis dafür hat. Es muss Kontext, Bedeutung und Subtext verstehen können“, so Kay Delventhal. Das LLM nutzt dazu semantische Analyse. Damit versteht das Modell nicht nur Worte und Sätze und deren Bedeutung, sondern kann auch im Kontext verschiedene Bedeutungen interpretieren. Der erste Schritt im Versuchsaufbau ist die Einspeisung des Drehbuchtexts in die Datenbasis von ChatGPT. Delventhal bereitet die Skripte vor, damit sie leichter von der KI verarbeitet werden können. Über die API sendet er die Skripte an ChatGPT, das ist auch der einzige Weg, über den diese Inhalte nicht zum Training der KI genutzt werden. Dann erfolgt die Suche nach den VFX durch das LLM durch se- mantische Analyse der Skriptteile. Das wird gesteuert durch Prompt Design, dadurch hinzugefügte Metadaten und das Priming, also das Feintuning der Daten. Der dritte Schritt ist die Weiterverarbeitung der vom LLM extrahierten und interpretierten Daten für ein über eine Bild-KI erstelltes „Budget-Art“ oder einen VFX-Breakdown, zum Beispiel in einer Excel-Datei.

Der Weg zu diesem Workflow war ein langer Trial-and-Error-Prozess. Zunächst fragte Delventhal im Chat: „Was erkennst Du als VFX“? Der Chatbot schrieb zurück: „Hier ist eine Szene, die sieht aus wie ein VFX.“ Daraus entstand ein Dialog, in dem Delventhal sich immer näher herantastete „Was denn für ein VFX?“ „Mir war schnell klar, das reichte mir nicht als Output“, sagt Delventhal. „Das ist vor allem kein Datenformat, das man weiterverarbeiten kann. Ich brauche also ein System, das das von Anfang an strukturiert ausgibt.“ Einige von den Daten sind eins zu eins aus dem Skript entnehmbar, wie die Szenennummer, ob Tag oder Nacht oder auch der Text der Szene als Beschreibung. Im nächsten Schritt ließ Delventhal den Chatbot Annahmen über die Assets anstellen, die mit der VFX zu tun haben könnten, zum Beispiel eine Set Extension oder einen Stunt. [15501]


Möchten Sie mehr darüber lesen, wie Kay Delventhal seine KI trainierte und warum er sich mit einem halbautomatischen Prozess begnügt? Hier geht’s zum Artikel!


Anzeige

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.