テキスト、画像、動画リファレンスから動画を生成・編集できる統合モデル
Kling 3.0 Omniは、テキスト、画像、動画を入力として受け付ける統合マルチモーダル動画モデルです。テキストから動画、画像から動画、リファレンスベースの生成、動画編集を一つのパイプラインに統合し、ネイティブ音声出力にも対応しています。
テキストプロンプト、リファレンス画像(最大7枚)、既存の動画クリップを一つのモデルに入力できます。
リファレンスクリップを提供し、自然言語で変更内容を記述して既存の動画を編集できます。
リファレンス画像を使用して、複数のショットやシーンにわたって同じキャラクターの外観を維持します。
リファレンス画像や動画のビジュアルスタイルを生成コンテンツに適用できます。
テキストプロンプトから始めるか、スタイル一貫性のためにリファレンス画像をアップロードするか、編集用の動画を提供します。
キャラクターやスタイルの一貫性のためにリファレンス画像を最大7枚アップロードできます。動画編集にはリファレンス動画(3-10秒、最大200MB)を追加します。
StandardまたはProモード、アスペクト比(16:9、9:16、1:1)、再生時間(3-15秒)、音声生成の有無を選択します。
モデルがすべての入力を統合処理し、同期音声付きの動画を出力します。
最大7枚のリファレンス画像(動画と併用時は4枚)をアップロードして、キャラクターの外観やビジュアルスタイルをガイドできます。
リファレンス動画を提供して編集内容を記述すると、モデルがモーションを保持しながら変更を適用します。
スタイル転送には「feature」モード、モーション保持付きの直接動画編集には「base」モードを使用します。
シーケンス全体で一貫したキャラクターを持つ最大6つの連続ショットを作成できます。
セリフ、効果音、環境音を含む同期音声を生成します。
動画編集時に、リファレンスクリップの元の音声トラックをそのまま保持できます。
モード選択に基づく秒単位の料金設定です。
1秒あたり$0.112。10秒の動画で$1.12です。
1秒あたり$0.168で、より高品質な出力が得られます。10秒の動画で$1.68です。
リファレンスベースの制御や動画編集機能が必要な場合にOmniが最適です。
ブランドのリファレンス画像をアップロードして、キャンペーン全体でビジュアルアイデンティティに合った動画を生成します。
被写体のリファレンス画像を提供することで、複数のシーンにわたって同じキャラクターを維持します。
元のモーションとタイミングを保持しながら、既存の映像を異なるビジュアルスタイルに変換します。
同じリファレンスから異なるスタイルや設定で商品動画の複数バージョンを生成します。
Next-generation AI video model — Coming Soon
Native 4K, multi-shot sequencing & integrated audio
Transfer motion from reference video to image
Natural language video editing with motion preservation
Talking head generation with audio lip-sync at 48fps
Cinematic motion with native audio & lip-sync
Motion path control with up to 6 independent elements
Ultra-fast photorealistic image generation