Wenn Motion Control zur Lügenmaschine wird: Generative Filmproduktion an der Kante von Wahr und Falsch

Kling zeigt mit Motion Control, wie schnell „nur ein cooles Meme“ zur überzeugenden Fälschung werden kann. Und plötzlich ist Film nicht mehr nur Illusion – sondern ein echtes Identitätsproblem.

By Thomas Fenkart · 6 min read

Wir haben uns in der Filmproduktion ziemlich lange daran gewöhnt, dass „realistisch“ oft einfach heißt: teuer. Teure Sets, teure Lichter, teure Gesichter. Und wenn man tricksen wollte, dann brauchte man eben Zeit: VFX-Leute, Schnitt, Ton, Abnahmen, nochmal Schnitt. Dieses ganze „Wir kriegen das schon irgendwie hingebogen“, aber halt mit Kalender und Budget. Jetzt sitze ich vor einem Interface, lade ein Bild hoch, dazu ein kurzes Video als Bewegungsreferenz – und ein Video-Model errechnet, wie mein Motiv sich bewegt. Nicht irgendwie, sondern irritierend präzise. Kling nennt das Motion Control. Und ja, ich ertappe mich dabei, wie ich denke: Das ist nicht nur „besser“. Das fühlt sich irgendwie anders an. So ein Moment, wo sich die generative Filmproduktion… verschiebt. Das Problem ist dabei gar nicht, dass wir plötzlich mehr Content schaffen. Das Problem ist eher: Wir werden uns immer schwerer tun zu beweisen, was davon jemals passiert ist. Motion Control klingt nach Tool, ist aber eher ein Trick mit Hebelwirkung Die Idee ist erstmal simpel: Du gibst Kling ein Referenzvideo, das die Bewegung vorgibt, und ein Bild, das „dein“ Subjekt darstellt. Kling übernimmt dann die Bewegung aus dem Video und überträgt sie auf das Bildmotiv. Im Motion-Control-Guide wird das ziemlich klar als Workflow beschrieben: Referenzvideo als Bewegungsquelle, Bild als Zielmotiv, plus Prompting/Parameter, um Ergebnis und Stil einzugrenzen. Diese Kombination aus Bewegungs-Constraint und Identitäts-Constraint macht’s so stark. Und ja, genau deshalb auch so missbrauchbar. Denn wenn Bewegung und Identität getrennt voneinander „eingeklinkt“ werden können, dann ist „jemanden etwas tun lassen“ plötzlich nur noch ein Zusammensetzen von Inputs. Und wenn man ehrlich ist: Wir wollten das ja. Für Previs, animierte Storyboards, schnelle Iterationen. Für dieses klassische „kannst du den Shot einmal mit mehr Energy machen?“. Jetzt kann man. In Minuten. Ich hab vor ein paar Tagen aus Neugier genau so einen Clip gebaut – nichts Wildes, nur ein Standbild, dazu ein Referenzvideo, bisschen Parameter-Tweaking. Und ich war kurz zufrieden. Dann kam dieser zweite Gedanke: Moment mal. Das ist… zu gut für das, was es ist. Natürlich bleibt’s nicht bei Previs. Ich hab in den letzten Wochen genug Clips gesehen, die auf Social Media herumgereicht werden: Charaktere werden getauscht, plötzlich steht eine bekannte Person in einer Szene, in der sie nie war. Das fühlt sich nicht mehr nach Deepfake-2019 an (wacklig, uncanny, irgendwie lustig). Das fühlt sich an wie: verdammt echt. Hier zwei Beispiele: [embed:https://x.com/AIWarper/status/2011491633649631436] [embed:https://x.com/pabloprompt/status/2003820745265463633] Und ja, damit auch verdammt gefährlich. Wobei „gefährlich“ schon wieder so groß klingt – aber genau das ist ja das Ärgerliche: Man muss nicht mal die ganz große Verschwörung bemühen. Schon das Meme-Level reicht, um Vertrauen anzukratzen. Wenn jedes Video potenziell „nur“ ein cleverer Motion-Transfer ist, dann wird jede echte Aufnahme automatisch verdächtig. Und gleichzeitig wird jede Fälschung einfacher zu verkaufen, weil sie sich in das normale Rauschen einfügt. Der politische SuperGAU ist dabei nicht Science-Fiction, sondern Timing. Nicht, weil irgendwer irgendwann falsche Videos machen könnte. Das war immer klar. Das Unheimliche ist, wie gut das in unser aktuelles Klima passt: überall sowieso schon „Fake!“, „Manipulation!“, „Propaganda!“. Wenn du dann ein System hast, das aus einem Foto plus Referenzbewegung eine Szene baut, die aussieht wie „geleakt“, „handyfilmt“, „zufällig mitgeschnitten“ – dann ist die Schwelle zur Eskalation lächerlich niedrig. Und es gibt diesen zweiten Effekt, der mich fast mehr beschäftigt: Selbst wenn ein Fake auffliegt, bleibt was hängen. Nicht unbedingt die Lüge, sondern der Reflex: „Man kann ja eh nichts mehr glauben.“ Ich bin mir nicht sicher, ob wir schon verstehen, wie kaputt so ein Reflex eine öffentliche Debatte machen kann. Was mich dabei besonders nervös macht: Der typische Social-Media-Flow belohnt nicht die Wahrheit, sondern den Clip. Und Motion Control ist im Kern eine Clip-Maschine. „Lass uns den verstorbenen Star nochmal drehen“ – ja, das geht jetzt Dann ist da noch diese moralisch klebrige Ecke: die Wiederbelebung längst verstorbener Darsteller. Die Technik ist verführerisch. Sogar aus so einer Filmromantik heraus: Ein ikonisches Gesicht, das nochmal in einer neuen Szene auftaucht. Vielleicht in einem richtig guten Film. Vielleicht mit Respekt. Vielleicht als Hommage. Nur: Ob diese Person das gewollt hätte, bleibt unbeantwortet. Und selbst wenn Nachlassverwalter zustimmen – was heißt Zustimmung hier eigentlich? Zustimmung zu einem bestimmten Film? Zu einer konkreten Szene? Oder nur zur Möglichkeit, dass dieses Gesicht ab jetzt wie ein Asset in einer Library liegt? Ich merke, wie ich da hin- und herkippe: Ein Teil von mir denkt „künstlerische Freiheit“, ein anderer Teil denkt „das ist schon… komisch“. Motion Control verstärkt das, weil es nicht nur um ein Standbild oder ein „Avatar sagt was“ geht, sondern um Körperlichkeit. Um Gesten. Timing. Körpersprache. Also genau die Dinge, die wir unbewusst als „Echtheit“ lesen. Nebenbei: Für Sicherheitsprozesse, die auf Fotos oder Video-Ident basieren, ist das eine Art Worst Case. Wenn ein System darauf ausgelegt ist, „eine Person“ zu verifizieren, und wir gleichzeitig Tools bekommen, die Identität und Bewegung beliebig zusammensetzen können, dann knackt man nicht ein Schloss – man baut sich einen Schlüssel. Und das Grundprinzip bleibt brutal: Je besser die Synthese, desto weniger taugt „sieht echt aus“ als Kriterium. Hinweis: derzeit benötigt ein 30 Sekunden langes Video noch circa 8 Minuten Renderzeit. Bereits 2027 könnte es in Echtzeit erstellt werden. Beispiel: [embed:https://x.com/levelsio/status/2012205057521902041] Und damit stehen wir vor einer ungemütlichen Frage: Wollen wir als Branche (Film/Audio/Musik) wirklich weiter Richtung „alles ist generierbar“ laufen, ohne parallel eine Kultur der Herkunft, Kennzeichnung, Signatur aufzubauen? Ich merke bei mir selbst diesen inneren Widerspruch: Als Filmemacher liebe ich Kontrolle. Als Software Unternehmer will ich die Besten Tools unseren Kunden in die Hand geben. Als Bürger brauche ich Vertrauen. Das passt nicht sauber zusammen, zumindest nicht ohne neue Regeln, neue Standards, neue Gewohnheiten. Vielleicht ist genau das die neue Kompetenzlinie: Nicht nur, wer die besten Bilder generiert, sondern wer glaubhaft zeigen kann, woher sie kommen. Und wer das nicht kann, wird’s irgendwann schwer haben – nicht wegen Qualität, sondern wegen Glauben. Und wenn ich mir anschaue, wie schnell Motion-Control-Clips heute als „haha witzig“ geteilt werden: Wann kippt das in „warte, das war doch wirklich so“? Oder schlimmer: „Ich hab’s gesehen, also muss es stimmen.“ Ich weiß nicht, ob wir da vorbereitet sind. Wer sich für das Thema interessiert, hier ein Video dass die Möglichkeiten aufzeigt: https://www.youtube.com/watch?v=O-WFLK3em5I