あらゆるポートレートを音声同期リップシンク付きのトーキング動画に変換。1080p 48fps対応
Kling Avatar V2は、静止ポートレート写真を音声ファイルで駆動するトーキング動画に変換します。顔画像と音声クリップをアップロードすると、モデルが音声に同期した自然なリップムーブメント、表情、微妙な頭の動きを生成します。出力は1080p、48fpsです。
ポーズ、強調、自然な発話リズムを含め、リップムーブメントが音声に正確に一致します。
自然な動きを実現するスムーズな48フレーム/秒の高解像度出力です。
リアルな写真、アニメキャラクター、漫画の顔、動物のポートレートにも対応しています。
動画の長さは音声ファイルの再生時間に自動的に合わせられます。手動トリミングは不要です。
鮮明な正面向きのポートレート画像を用意してください。JPGまたはPNG、最大10MB、最小300px。明るく顔がはっきり見える写真が最適です。
音声ファイルを追加します。MP3、WAV、M4A、またはAAC形式、最大5MB。背景ノイズが少ないクリアな音声が最良のリップシンクを実現します。
リップシンク以外の頭の動き、感情、カメラモーションを記述してアニメーションをガイドします。
StandardまたはProモードを選択します。動画の再生時間は音声の長さに自動的に合わせられます。
子音、母音、ポーズを含む発話パターンに追従するフレーム精度のリップムーブメントです。
リアルな出力のために、会話パターンに合わせた微妙な頭の傾き、うなずき、動きを生成します。
音声のトーンとオプションのプロンプトガイダンスに基づいて、適切な表情を生成します。
複数の言語でリップシンクに対応しています。英語と中国語の音声で最良の結果が得られます。
リアルなポートレート、イラストキャラクター、アニメの顔、3Dレンダリング、スタイライズドアートワークをアニメーション化できます。
テキストプロンプトで音声駆動アニメーション以外の特定のジェスチャー、感情、カメラの動きを追加できます。
音声の再生時間に基づく秒単位の料金設定です。
クイックプレビューやドラフト向けの低コストオプションです。
より精細な顔のディテールとスムーズなモーションの高品質出力です。
Avatar V2は、音声駆動で静止ポートレートをトーキング動画に変換するために設計されています。
1枚の写真とナレーション録音から、オンラインコースやチュートリアル向けの講師トーキング動画を作成します。
撮影なしで、商品デモ、FAQ回答、ブランドメッセージ向けのスポークスパーソン動画を制作します。
ポッドキャスト音声をSNSプロモーションやYouTubeアップロード用のトーキングヘッド動画クリップに変換します。
翻訳された音声トラックから、同じスポークスパーソンが異なる言語で話す動画を生成します。
Next-generation AI video model — Coming Soon
Native 4K, multi-shot sequencing & integrated audio
Multimodal generation, video editing & style consistency
Transfer motion from reference video to image
Natural language video editing with motion preservation
Cinematic motion with native audio & lip-sync
Motion path control with up to 6 independent elements
Ultra-fast photorealistic image generation