Kling 3.0 und O3: Kuaishous neuer Angriff auf die KI-Video-Krone

Kuaishou hat mit Kling 3.0 und O3 zwei neue KI-Videomodelle veröffentlicht: 15 Sekunden Videos, Multi-Shot-Editing mit 6 Kamera-Cuts und native Audio-Generierung. Mit echten Beispielen von X und einem Ausblick auf Seedance 2.0.

By Thomas Fenkart · 3 min read

Kling 3.0 und O3: Kuaishous neuer Angriff auf die KI-Video-Krone

Kuaishou hat Anfang Februar Kling 3.0 und O3 rausgehauen – zwei Videomodelle, die ziemlich ambitioniert daherkommen. Hab mir das mal angeschaut, und diesmal nicht nur die Pressemitteilungen. 15 Sekunden maximale Videolänge jetzt. Klingt erstmal nach nichts, aber im KI-Video-Bereich ist das ein Sprung von vorher 10 Sekunden. Was mich mehr interessiert: die Multi-Shot-Funktion. Bis zu 6 Kamera-Cuts in einer Generation. Auf X zeigt @doctorwasif einen 15-sekündigen Sci-Fi-Thriller: Ein Hacker deckt eine Verschwörung auf, vier Schnitte bauen Spannung auf vom Wide Shot bis zum intensiven Reveal. Alles aus einem Prompt, mit natürlichem Flow zwischen den Einstellungen. @sparker888 hat eine komplette Fan-Produktion gebaut – Midjourney V7 Referenzbilder als Elemente für die Multi-Shot-Funktion, gerendert in unter einer Stunde. Vier Minuten fertiges Video, inklusive Blooper am Ende. Die Audio-Sache Native Audio-Synchronisation ist der andere große Punkt bei Kling 3.0. Dialog, Musik, Soundeffekte – alles wird direkt mit dem Video generiert. Japanisch, Koreanisch und Spanisch gehen jetzt auch, nicht mehr nur Englisch und Chinesisch. Was mich überrascht hat: Multi-Person-Dialog mit drei Leuten gleichzeitig, korrekte Lippensync und Stimmen-Zuordnung. Das war bisher immer Chaos, sobald mehrere Personen im Bild waren. @bonega_ai bringt es auf den Punkt: "The biggest AI video problem has always been consistency. Same character, new shot, new face. Kling 3.0 just shipped multi-shot storyboarding. 6 shots per clip, character identity locked across every angle." Einen Tag später kam dann O3 – das Schweizer Taschenmesser der Familie. Text-zu-Video, Bild-zu-Video, Video-zu-Video, Multi-Reference, Editing, alles in einem Modell. Man kann bis zu 10+ Referenzbilder gleichzeitig verwenden und das System hält Charaktere und Stil konsistent. Das text-basierte Editing bei O3 ist interessant: Objekte hinzufügen, Beleuchtung ändern, Hintergründe austauschen – per Texteingabe, ohne Masking. @terencesia_ zeigt eine Werbe-Demo und kommentiert: "Brands aren't hiring photographers the way they used to. More ad production is moving in-house." Magic Hour hat einen ausführlichen Review veröffentlicht: Kling 3.0 sei "one of the first AI video models that feels built for structured storytelling, not just flashy clips." Ihre Einschätzung: Stärker als die meisten Konkurrenten für Multi-Shot und 15-Sekunden-Narrativ – aber On-Screen-Text und komplexe Physik (Wasser, Feuer, Stoff) können noch Probleme machen. Hände und Finger in Close-Ups bleiben inkonsistent. Was das für die Branche bedeutet Kuaishou macht mit dieser Doppel-Veröffentlichung eine Ansage an Sora, Veo und Runway. Längere Videos, Multi-Shot, native Audio – das sind genau die Dinge, die professionelle Nutzer wollten. Die API war einen Tag nach Launch draußen, ComfyUI-Integration gibts schon. Das zeigt: Kling positioniert sich nicht als Spielzeug, sondern als Teil einer Produktionspipeline. Ob sie damit die Führung übernehmen? Der Vorsprung hielt genau sechs Tage. Am 10. Februar hat ByteDance mit Seedance 2.0 nachgelegt – 2K Video mit synchronisiertem Audio, bis zu 12 Referenzdateien, und laut Forbes "nails real world physics." Dazu mehr im nächsten Artikel.