あらゆるポートレートを音声同期リップシンク付きのトーキング動画に変換。1080p 48fps対応








Kling Avatar V2は、静止ポートレート写真を音声ファイルで駆動するトーキング動画に変換します。顔画像と音声クリップをアップロードすると、モデルが音声に同期した自然なリップムーブメント、表情、微妙な頭の動きを生成します。出力は1080p、48fpsです。
ポーズ、強調、自然な発話リズムを含め、リップムーブメントが音声に正確に一致します。
自然な動きを実現するスムーズな48フレーム/秒の高解像度出力です。
リアルな写真、アニメキャラクター、漫画の顔、動物のポートレートにも対応しています。
動画の長さは音声ファイルの再生時間に自動的に合わせられます。手動トリミングは不要です。
鮮明な正面向きのポートレート画像を用意してください。JPGまたはPNG、最大10MB、最小300px。明るく顔がはっきり見える写真が最適です。
音声ファイルを追加します。MP3、WAV、M4A、またはAAC形式、最大5MB。背景ノイズが少ないクリアな音声が最良のリップシンクを実現します。
リップシンク以外の頭の動き、感情、カメラモーションを記述してアニメーションをガイドします。
StandardまたはProモードを選択します。動画の再生時間は音声の長さに自動的に合わせられます。
子音、母音、ポーズを含む発話パターンに追従するフレーム精度のリップムーブメントです。
リアルな出力のために、会話パターンに合わせた微妙な頭の傾き、うなずき、動きを生成します。
音声のトーンとオプションのプロンプトガイダンスに基づいて、適切な表情を生成します。
複数の言語でリップシンクに対応しています。英語と中国語の音声で最良の結果が得られます。
リアルなポートレート、イラストキャラクター、アニメの顔、3Dレンダリング、スタイライズドアートワークをアニメーション化できます。
テキストプロンプトで音声駆動アニメーション以外の特定のジェスチャー、感情、カメラの動きを追加できます。
音声の再生時間に基づく秒単位の料金設定です。
クイックプレビューやドラフト向けの低コストオプションです。
より精細な顔のディテールとスムーズなモーションの高品質出力です。
Avatar V2は、音声駆動で静止ポートレートをトーキング動画に変換するために設計されています。
1枚の写真とナレーション録音から、オンラインコースやチュートリアル向けの講師トーキング動画を作成します。
撮影なしで、商品デモ、FAQ回答、ブランドメッセージ向けのスポークスパーソン動画を制作します。
ポッドキャスト音声をSNSプロモーションやYouTubeアップロード用のトーキングヘッド動画クリップに変換します。
翻訳された音声トラックから、同じスポークスパーソンが異なる言語で話す動画を生成します。
AI動画生成の次なる飛躍。Kling 4.0はモーション、解像度、クリエイティブなストーリーテリングの限界を押し広げます。ご期待ください。
のKling 3.0で動画を生成。ネイティブ4K出力、マルチショットシーケンス、統合オーディオ生成、画像から動画に対応。
テキスト、画像、動画リファレンスから動画を生成・編集できる統合モデル
リファレンス動画のモーションを静止画に転送し、アイデンティティを保持したスムーズなアニメーションを生成
Kling O3 を使用して、高速かつ手頃な価格の AI ビデオを生成します。テキストからビデオへ、画像からビデオへ、マルチショット シーケンス、ネイティブ オーディオ、4K 出力を、Kling 3.0 よりも低いクレジット コストで実現します。
高品質AI動画のための決定版モデル。Kling 2.6は業界最高水準のモーション一貫性、リアルなリップシンク、豊かなサウンドデザインを、たった一つのプロンプトから実現します。
動画内の要素の動きを制御 -- パスの描画、リファレンスクリップからのモーション転送、最大6要素のアニメーション
Kling O3 を使用して高品質の AI 画像を生成および編集します。リファレンス入力を使用したテキストから画像への生成と画像編集 — 1K から 4K までの解像度、複数のアスペクト比、画像ごとに 5 クレジット。
Nano Banana 2 を使用して、超高速でフォトリアリスティックな AI 画像を生成します。幅広いアスペクト比にわたる 1K、2K、または 4K 解像度でのテキストからイメージへの生成およびイメージからイメージへの生成。