AIショートドラマ制作は、一つのツールでは完結しません。脚本、画像生成、動画変換、音声合成、BGM制作、そして最終編集。それぞれの工程で最適なツールを使い分け、一貫した品質で作品を組み上げるパイプラインが必要です。

この記事では、1〜3分のショートドラマを作るための完全なパイプラインを、ステップバイステップで解説します。すでに個別のツールを知っている方が、それらを「つなげて作品にする」ための実践ガイドです。

パイプライン全体像

Script(ChatGPT)
  → Character Base Images(Nano Banana Pro, reference)
  → Scene Images(Nano Banana Pro, reference upload)
  → Video Generation(Kling 3.0 Omni or per-scene tool)
  → Narration(ElevenLabs v3 with emotion tags)
  → BGM(SUNO via Gemini)
  → Final Edit(combine, trim, subtitles)

各ステップの出力が次のステップの入力になります。特に重要なのは、前のステップの品質が後のすべてに影響するということです。脚本が弱ければ映像も弱くなり、画像が良くなければ動画も良くなりません。

Step 1: 脚本を作る

ChatGPT(GPT-5.4)を使って脚本を作成します。カジュアルな指示でも十分な品質の脚本が返ってきます。

脚本に含めるべき要素

ChatGPTへの指示例

60秒のショートドラマの脚本を書いてください。

テーマ:雪の海辺で再会する元恋人
キャラクター:20代後半の日本人男女
トーン:切ないけれど温かい

以下の形式で各カットを記述してください:
カット[N]([秒数]秒):[カメラワーク]。[画角]。[動作]。[表情]。[キャラ名]「[セリフ]」

セリフは1カットにつき1〜2文まで。
カメラワークは連続するカットで同じにしないこと。

ChatGPTが出力する脚本は、そのまま次のステップで使えるフォーマットになります。セリフの長さがカットの秒数に収まるかは、実際に声に出して読んで確認してください。

Step 2: キャラクターのベース画像を作る

Nano Banana Proで、各キャラクターのベース画像を生成します。シンプルな背景で正面ショットを作り、これを全シーンのリファレンスとして使います。

シンプルな白背景、正面を向いた25歳の日本人女性のポートレート。
黒髪セミロング、ナチュラルメイク。均一なスタジオ照明。
白いニットセーター。上半身ショット。文字なし

キャラクターが複数いる場合は、それぞれのベース画像を個別に生成します。ベース画像の品質がプロジェクト全体の一貫性を左右するため、納得いくまで何度か生成し直してください。詳細はキャラクター一貫性の保ち方を参照してください。

Step 3: シーン画像を生成する

ベース画像をリファレンスとしてアップロードし、各シーンの画像を生成します。

重要なルール

シーン画像プロンプトの例

(リファレンス画像をアップロードした状態で)

雪の積もった海辺。夕暮れ。女性が海を見つめている。
後ろ姿。コートの襟を立てている。
風で髪が少しなびいている。ロングショット。
ホワイトバランスはやや寒色寄り、コントラストは自然、
空気感のある柔らかなライティング。文字なし

AI動画制作をもっと深く学びたい方へ

Algentio AI Professional Academyでは、AI動画制作を含むAI活用スキルを体系的に学べるプログラムを準備中です。

LINEで開講情報を受け取る

Step 4: 動画を生成する

シーンの内容に応じてツールを使い分けます。

シーンの種類推奨ツール理由
人物の会話、リップシンクKling 3.0 Omni最も自然な人物の動き+音声同時生成
アニメスタイルVidu Q3アニメ表現+リップシンク精度が高い
食べ物、日常の微細な動きSeedanceスマホで撮ったような自然な質感
風景、ドローンショットHailuoaiダイナミックなカメラワーク
シーン間のトランジションKling 2.5 Turboスタート+エンドフレームで滑らかな遷移

Kling 3.0 Omniでのマルチカット生成

Kling 3.0 Omniは、複数のカットを一度に生成できます。脚本のカット形式をそのまま入力できるため、ショートドラマとの相性が抜群です。

カット1(2秒):ロングショット。雪の積もった海辺。
遠くに凍てついた海が見える。女性と男性。海を見ている。

カット2(4秒):ミディアムショット。女性が口を開く。
女性「ねえ、覚えてる?初めてここに来た時のこと」

カット3(5秒):クローズアップ。男性の横顔。
少し寂しそうな笑顔。男性「覚えてるよ。」

カメラワークのルール

Step 5: ナレーションとセリフを作る

ElevenLabs v3で音声を生成します。詳細はElevenLabsナレーションガイドを参照してください。

ドラマでの感情タグ設計

各セリフに感情タグを挿入します。すべての文の切れ目でタグを再指定することが重要です。

[calm]ねえ、覚えてる?[nervous]初めてここに来た時のこと。
[sad][slow]覚えてるよ。
[calm]あの時は夏だったね。[happy]海がすごくきれいだった。
[sad]うん。[sighs]もう、あんな日は来ないのかな。

セリフの長さとカットの長さを一致させる

4秒のカットに10秒分のセリフを入れることはできません。脚本の段階でセリフを声に出して読み、秒数を確認してください。1カットにつきセリフは1〜2文が限度です。

Step 6: BGMを作る

GeminiまたはChatGPTにシーンの説明を渡し、SUNOプロンプトを生成してもらいます。詳細はSUNOでBGMを作るテクニックを参照してください。

【Geminiへの指示】
以下のショートドラマに合うBGMのSUNOプロンプトを作ってください。

雪の海辺で再会する元恋人の60秒ドラマ。
切ないが温かいトーン。冬の寂しさと再会の喜びが共存。
ボーカルなし、ループ不要。

Step 7: 最終編集

生成した動画、音声、BGMを編集ソフトで組み合わせます。

  1. 動画クリップの配置 — 脚本の順番通りにタイムラインに並べる
  2. トリミング — 各クリップの不要な部分をカット
  3. 音声の配置 — セリフを対応するカットに合わせる
  4. BGMの配置 — 全体に敷き、セリフの邪魔にならない音量に調整
  5. 字幕の追加 — セリフをテロップとして表示
  6. 音量バランスの最終調整 — セリフ > BGM > 効果音の優先順位

Show Don't Tell の原則

ショートドラマの品質を最も大きく左右するのが「Show Don't Tell」の原則です。これは「言わないで伝える設計」を意味します。

ダメな例

キャラクターが「私、疲れてるの...」と言うセリフ。

良い例

キャラクターがドアを開け、靴を脱ぎ、ソファに倒れ込む映像。机の上に空になったエナジードリンクの缶が3本。セリフなし。

視聴者は映像から情報を読み取ることで、より深く物語に没入します。AIが作る画像にも「生活感」を持たせることが重要です。部屋に楽器があれば音楽好きと伝わり、参考書が散乱していれば受験生と伝わります。

一つの間違った小道具(1960年代の物語にノートパソコン)で没入感が完全に壊れます。時代設定のあるドラマでは、存在すべきものだけでなく、存在してはいけないものも意識してください。

マルチカットテンプレート

Kling 3.0 Omni フォーマット

カット[N]([秒数]秒):[カメラワーク]。[画角]。[動作]。[表情]。[キャラ名]「[セリフ]」

Vidu Q3 フォーマット

[Cut1]自撮り風ショット。女の子のセリフ「今日はこちらのカフェをご紹介していきます」
[Cut2]女の子がレジに並んでいるシーンを横から見たクローズアップ。

テンプレート使用時の注意

品質チェックリスト

公開前に以下をすべて確認してください。

ショートドラマの制作は、最初は各ステップに時間がかかります。しかし、パイプラインに慣れてくると、1〜2時間で60秒のドラマを仕上げられるようになります。最初は30秒程度の短い作品から始めて、パイプラインの流れを体に覚えさせることをお勧めします。