Controlled Generation 2026: Warum AI-Video endlich produktionsreif ist (und was sich am Set wirklich ändert)
AI-Video ist 2026 nicht mehr nur „wow“, sondern planbar: Kamerabewegung, Look und Figuren werden steuerbar – und damit produktionstauglich. Controlled Generation verschiebt den Fokus von Zufallstreffern zu reproduzierbaren Shots, mit Workflows wie MiniMate und MergeMate als praktischem Klebstoff.
By Thomas Fenkart · 6 min read
Wer 2023/24 mit GenAI-Video gespielt hat, kennt dieses Gefühl: Du bekommst manchmal einen Shot, der aussieht wie ein teurer Musikvideo-Frame — und beim nächsten Prompt zerfällt alles wieder. Hände werden zu Origami, Gesichter springen, der Raum „atmet“ wie ein lebendiger Organismus. Nett für Experimente, brutal für Produktion. 2026 fühlt sich das anders an. Nicht, weil plötzlich „die perfekte KI“ vom Himmel gefallen ist, sondern weil wir gelernt haben, die Generierung zu kontrollieren. Controlled Generation ist im Kern keine neue Modell-Religion, sondern eher eine Haltung: weniger Glücksspiel, mehr präzises Shot-Design. Klingt erstmal trocken, ich weiß — aber genau da liegt der Unterschied zwischen Demo und Drehplan. Der Shot muss wieder wiederholbar sein In Filmproduktionen ist Wiederholbarkeit nicht Luxus, sondern Überlebensstrategie. Wenn ich beim Grading oder in VFX merke, dass ein Shot nicht passt, will ich nicht das Universum neu würfeln. Ich will denselben Shot mit einer klaren Änderung: „Kamerahöhe +20 cm“, „Licht weicher“, „Blickrichtung 10° nach links“, „Timing 12 Frames später“. Genau da hat frühes AI-Video versagt. Statt „Erzeuge mir etwas Cooles“ arbeiten wir inzwischen viel stärker mit Constraints: Referenzframes, Motion-Vorgaben, definierte Seeds/Varianten, Masken, Depth/Normal/Flow-Informationen, sogar mit kleinen „Regeln“ fürs Verhalten einer Szene. Mehr Technik, ja. Aber es ist eigentlich näher an dem, wie wir sowieso denken: Was ist die Achse? Wo ist die Quelle? Welche Brennweite emulieren wir? Wie bewegt sich die Kamera — und warum? Der Punkt ist simpel: Produktion braucht nicht unendlich viele Möglichkeiten. Produktion braucht die eine Möglichkeit, die wir gewählt haben, und dann zuverlässige Variationen, ohne dass das Motiv jedes Mal seine Identität wechselt. Was mich dabei immer wieder irritiert: Wie lange wir akzeptiert haben, dass „neu rendern“ automatisch „neu erfinden“ heißt. Eigentlich absurd. Kamerabewegung steuern (und dieses zufällige Floaten loswerden) Das unterschätzteste Thema bei AI-Video ist Kamera. Viele generierte Clips sehen „teuer“ aus, solange sich die Kamera nicht bewegt. Sobald Bewegung reinkommt, passiert oft dieses generische Schweben: ein pseudo-cinematischer Dolly ohne physikalischen Grund. Das ist wie ein Gimbal, der… na ja, sagen wir: nicht seinen besten Tag hat. 2026 ist Kamerakontrolle in ernsthaften Pipelines eher Standard als Kür. Und wir reden nicht über „pan left“ im Prompt, sondern über kontrollierte Motion: Pfade, Geschwindigkeit, Easing, Parallaxen-Verhalten. Praktisch heißt das: Wir definieren eine Kameraidee einmal (z.B. ein langsam push-in mit leichter Arc-Bewegung um die Figur) und halten diese Idee über Takes hinweg konsistent. Und das ist mehr als nur Look. Kamera ist Grammatik: Push-in = Verdichtung, Reveal = Information, Handheld = Instabilität. Wenn die KI die Kamera zufällig interpretiert, erzählt sie dir halt zufällig irgendwas. Controlled Generation bringt die Verantwortung zurück zu uns. Wobei — ganz ehrlich — manchmal ist dieses „Zufällige“ auch spannend. Nur: Nicht, wenn du Dienstag Abnahme hast. Character Consistency: Die Figur ist keine Stilfrage Wenn du mit echten Schauspielern arbeitest, ist Kontinuität eine Selbstverständlichkeit: Wardrobe, Hair, Make-up, Continuity Notes. In AI-Video war „Character Consistency“ lange eher ein Wunsch ans Universum. Jetzt wird es greifbarer, weil Identität nicht mehr nur im Prompt steckt. Wir arbeiten mit Character-Referenzen, Embeddings, Multi-View-Referenzen, strengeren Constraints auf Gesicht/Outfit/Silhouette und (ganz wichtig) mit einem Workflow, der über einzelne Clips hinaus denkt. Eine Figur ist nicht ein Bild — sie ist ein Set aus Regeln, Referenzen und erlaubten Abweichungen. Ich bin da relativ streng: Wenn eine Figur in Shot A eine Narbe rechts hat und in Shot B ist sie links, dann ist das nicht „kreativ“, sondern ein Fehler. Ich hab einmal bei einem Testclip genau so einen Mist übersehen, und natürlich war es dann die Sache, die alle nach drei Sekunden gesehen haben. Das Publikum verzeiht viel, aber nicht, wenn Identität wackelt. Vor allem nicht in Werbung, Serienformaten oder Musikvideos mit wiederkehrendem Artist. Wir wollen nicht irgendeinen Menschen, der „ähnlich“ ist. Wir wollen denselben. Human-in-the-Loop: Nicht als Bremse, eher als Taktgeber Manche tun so, als wäre Human-in-the-Loop nur ein Übergangszustand, bis die KI „perfekt“ ist. Ich glaube, das ist ein Denkfehler. (Oder anders: Ich bin mir nicht sicher, ob „perfekt“ in Film überhaupt ein sinnvolles Ziel ist.) Film ist Entscheidungen treffen. Ständig. Und viele davon sind nicht objektiv messbar: Ist der Blick „ehrlich“ genug? Ist das Timing zu melodramatisch? Hat der Shot den richtigen Druck? Das sind keine Datenprobleme, sondern Geschmacks- und Kontextfragen. Produktionsreif heißt deshalb nicht „vollautomatisch“, sondern „workflow-fähig“: Eine KI, die sich in Review-Schleifen integrieren lässt. Eine KI, die Varianten schnell liefert, aber innerhalb definierter Grenzen. Eine KI, die Änderungen lokal akzeptiert, statt das ganze Bild neu zu erfinden. In der Praxis sieht das oft ungefähr so aus: Du blockst die Szene grob (Storyboards, Layout, vielleicht ein Previs-Clip). Dann generierst du controlled Takes. Dann kommt die menschliche Auswahl (und ja, auch Bauchgefühl). Dann werden einzelne Teile gezielt korrigiert: Gesicht, Hände, Props, Lipsync, Kamera-Drift. Und erst dann geht’s in Finishing, Sound, Grading. Das ist nicht weniger „kreativ“ als klassisch — nur schneller in der Iteration und manchmal gnadenloser, weil Fehler sofort sichtbar sind. MiniMate & MergeMate: Nicht „magisch“, sondern brauchbar Bei Not Another Mate reden wir intern oft über Tools nicht als Feature-Sammlung, sondern als Produktionsverhalten: Was hilft dir, Entscheidungen zu halten, statt sie bei jedem Render neu zu verhandeln? MiniMate ist für mich so ein Baustein, der Chaos in einen handhabbaren Prozess übersetzt: klein, schnell, iterativ. Du bekommst kontrollierte Varianten, ohne jedes Mal den kompletten Pipeline-Zirkus aufzubauen. Gerade in der frühen Phase — wenn du noch suchst, aber schon gezielt suchst — hilft das enorm. MergeMate geht in die andere Richtung: nicht „alles neu generieren“, sondern bestehendes Material respektieren, gezielt kombinieren, reparieren, konsolidieren. In echten Produktionen ist das sowieso die Realität. Du nimmst nicht Take 1 oder Take 2, du nimmst Take 2 mit dem Anfang von Take 1 und dem Blick aus Take 3. Genau dieses Denken übersetzen wir in AI-Workflows. Klingt banal, ist aber oft der Unterschied zwischen „KI macht ein Video“ und „wir produzieren ein Video mit KI“. Am Ende ist Controlled Generation für mich weniger eine Technologie-Ansage als eine kulturelle: Wir hören auf, die KI als Orakel zu behandeln, und fangen an, sie wie ein Department zu führen — mit Briefing, Constraints, Review und klaren Zuständigkeiten. Die spannendere Frage ist für mich nicht, ob AI-Video irgendwann alles kann. Sondern wie schnell wir uns daran gewöhnen, dass ein Shot wieder ein Shot ist — planbar, wiederholbar, revisionsfähig — und nicht nur ein glücklicher Unfall. Oder ob wir heimlich doch an den Unfällen hängen…