マルチカット動画の構成術：Kling 3.0 Omniの活用法

Kling 3.0 Omniの登場により、AI動画制作は新しい段階に入りました。それまで1カットずつ生成して後から編集でつなげていた作業が、複数カットを一度に生成し、音声付きで出力することが可能になったのです。

この記事では、Kling 3.0 Omniのマルチカット機能を最大限に活用するための構成テクニックを解説します。カット構文の正確な書き方、セリフと秒数の合わせ方、構図変化の原則、キャラクター登録機能まで、上級者向けの実践的な内容をまとめています。

マルチカットとは何か

マルチカットとは、一つのプロンプトの中に複数のカット（ショット）を定義し、AIがそれらをシーケンスとして一度に生成する仕組みです。従来のAI動画生成が「1プロンプト = 1カット」だったのに対し、Kling 3.0 Omniでは最大15秒の中に複数のカットを配置できます。

マルチカットの利点は3つあります。

カット間のつながりが自然 — AIが全体を把握して生成するため、シーン間の色味やキャラクターの一貫性が保たれる
音声と映像の同期 — セリフ、リップシンク、効果音がカットに合わせて自動生成される
制作効率の向上 — 個別にカットを生成して編集ソフトでつなげる手間が大幅に削減される

Kling Omniカット構文の書き方

Kling 3.0 Omniのマルチカット構文には、明確なフォーマットがあります。このフォーマットを正確に守ることが、期待通りの出力を得るための第一歩です。

基本構文

カット[N]（[秒数]秒）：[カメラワーク]。[画角]。[動作]。[表情]。[キャラ名]「[セリフ]」

各要素の説明

要素	必須/任意	説明
カット番号	必須	カット1、カット2...と連番で指定
秒数	必須	そのカットの長さ（2〜10秒推奨）
カメラワーク	推奨	ズームイン、パン、スタティックなど
画角	推奨	ロングショット、ミディアムショット、クローズアップ
動作	推奨	キャラクターの行動
表情	任意	感情表現の指示
セリフ	任意	「」で囲んだセリフテキスト

実例

カット1（2秒）：ロングショット。雪の積もった海辺。遠くに凍てついた海が見える。女性と男性。海を見ている。

カット2（4秒）：ミディアムショット。女性が口を開く。女性「ねえ、覚えてる？初めてここに来た時のこと」

カット3（5秒）：クローズアップ。男性の横顔。少し寂しそうな笑顔。男性「覚えてるよ。」

カット4（4秒）：ロングショット。二人の後ろ姿。風に髪がなびく。静かに海を見つめている。

合計15秒。これが1回の生成で出力されます。

セリフと秒数の合わせ方

マルチカットで最も失敗しやすいのが、セリフの長さとカットの秒数のミスマッチです。セリフが長すぎるとAIが早口になったり、途中で切れたりします。逆に短すぎると、不自然な間が生まれます。

セリフ量の目安

カット秒数	日本語セリフの目安	文の数
2秒	10〜15文字	1文以下
3秒	15〜25文字	1文
4秒	25〜35文字	1〜2文
5秒	35〜50文字	2文

検証方法はシンプルです。セリフを声に出して読み、秒数を計ること。自然な速度で読んでカットの秒数内に収まれば適切です。早口でないと収まらない場合は、セリフを削るか秒数を伸ばしてください。

セリフは1カットにつき1〜2文まで。3文以上入れると、音声と映像のズレが発生し、リップシンクが崩れる原因になる。

構図とカメラワークの変化ルール

マルチカットで最も重要なルールの一つが、連続するカットで同じ構図とカメラワークを使わないことです。

NG例

カット1（3秒）：ミディアムショット。スタティック。女性が話す。
カット2（4秒）：ミディアムショット。スタティック。男性が答える。
カット3（3秒）：ミディアムショット。スタティック。女性が笑う。

すべてミディアムショット＋スタティックで、テレビ番組の定点カメラのような単調な映像になります。

OK例

カット1（3秒）：ロングショット。スタティック。二人がカフェに入ってくる。
カット2（4秒）：クローズアップ。ゆっくりズームイン。女性の表情。女性「久しぶりだね」
カット3（3秒）：ミディアムショット。パンライト。男性が席に座る。男性「うん、3年ぶりかな」
カット4（5秒）：ロングショット。ゆっくりズームアウト。二人が向かい合って座っている。

画角がロング→クローズアップ→ミディアム→ロングと変化し、カメラワークもスタティック→ズームイン→パン→ズームアウトとバリエーションがあります。

構図変化のパターン

ロング → クローズアップ → ミディアム — 環境紹介 → 感情の焦点 → 行動
クローズアップ → ロング → クローズアップ — 緊張 → 状況の俯瞰 → 再び緊張
ミディアム → クローズアップ → ロング — 日常 → 感情のピーク → 引きで余韻

AI動画制作をもっと深く学びたい方へ

Algentio AI Professional Academyでは、AI動画制作を含むAI活用スキルを体系的に学べるプログラムを準備中です。

LINEで開講情報を受け取る

キャラクター登録機能の活用

Kling 3.0 Omniには、キャラクターを事前に登録し、マルチカット内で一貫して使用する機能があります。この機能を使うことで、キャラクターの顔、体型、声がカット間で統一されます。

キャラクター登録の手順

Nano Banana Proでキャラクターのベース画像を生成する
Kling 3.0 Omniのキャラクター登録画面で、ベース画像をアップロードする
キャラクター名を設定する（プロンプト内でこの名前を使う）
複数の角度からの参照画像をアップロードすると、一貫性がさらに向上する

登録したキャラクター名をカット構文の中で使うことで、AIはそのキャラクターの外見と声を維持したまま、異なるカットを生成します。

複数キャラクターの管理

対話シーンでは複数のキャラクターが必要です。それぞれ別のベース画像を登録し、カット構文内で「女性」「男性」ではなく登録した名前（「ユイ」「ケンタ」など）を使うと、AIの認識精度が上がります。

Vidu Q3との使い分け

マルチカット動画を作れるのはKling 3.0 Omniだけではありません。Vidu Q3にも[Cut N]マーカーを使ったマルチカット機能があります。

Vidu Q3のカット構文

[Cut1]自撮り風ショット。女の子のセリフ「今日はこちらのカフェをご紹介していきます」
[Cut2]女の子がレジに並んでいるシーンを横から見たクローズアップ。
[Cut3]テーブルに座っている。目の前にラテアートのコーヒー。女の子のセリフ「めっちゃかわいい」

使い分けの基準

条件	推奨ツール
リアルな人物ドラマ	Kling 3.0 Omni
アニメスタイル	Vidu Q3
アクション/激しい動き	Vidu Q3
日本語の長いセリフ	Kling 3.0 Omni
Vlog風の軽い映像	Vidu Q3
キャラクターの表情重視	Kling 3.0 Omni

上級テクニック

15秒制限の活用法

Kling 3.0 Omniは1回の生成で最大15秒です。60秒の動画を作るには、15秒×4回の生成が必要です。この制約を逆手に取り、15秒ごとに「シーンの区切り」を設計すると、構成が引き締まります。

セリフなしカットの効果的な使い方

すべてのカットにセリフを入れる必要はありません。セリフなしの「間」のカットが、感情の余韻を生みます。特にクライマックス後の静かなカットは、視聴者に感情を処理する時間を与えます。

カメラワークの組み合わせ制限

1カット内のカメラワークは最大2つまでの組み合わせに抑えてください。「ズームイン + パンライト」は自然ですが、「ズームイン + パンライト + ティルトアップ」のように3つ以上を指定すると、AIが混乱して不自然な映像になります。

実践例：3つのシーン構成

例1: カフェの再会シーン（ドラマ）

カット1（3秒）：ロングショット。おしゃれなカフェの入口。ユイが扉を開けて入ってくる。
カット2（4秒）：ミディアムショット。ケンタが奥の席で待っている。顔を上げる。ケンタ「来てくれたんだ」
カット3（3秒）：クローズアップ。ユイの表情。少し緊張した笑顔。ユイ「うん、久しぶり」
カット4（5秒）：ロングショット。ゆっくりズームアウト。二人が向かい合って座る。窓の外から光が差し込む。

例2: 商品レビュー（Vlog）

カット1（3秒）：クローズアップ。商品のパッケージ。手がフレームインして商品を持ち上げる。
カット2（5秒）：ミディアムショット。女性がカメラに向かって話す。女性「今日はこれを試してみます」
カット3（4秒）：クローズアップ。商品を開封する手元。中身が見える。
カット4（3秒）：ミディアムショット。女性が商品を使っている。笑顔。

例3: 風景ドキュメンタリー（ナレーション付き）

カット1（4秒）：ロングショット。ゆっくりパンライト。冬の湖。水面に朝霧が立ち込める。
カット2（3秒）：クローズアップ。水面に映る木々。静かな波紋。
カット3（4秒）：ロングショット。ゆっくりズームアウト。湖の全景。山々が遠くに見える。
カット4（4秒）：ミディアムショット。湖畔に立つ一人の人影。背中越し。