AIショートドラマ制作は、一つのツールでは完結しません。脚本、画像生成、動画変換、音声合成、BGM制作、そして最終編集。それぞれの工程で最適なツールを使い分け、一貫した品質で作品を組み上げるパイプラインが必要です。
この記事では、1〜3分のショートドラマを作るための完全なパイプラインを、ステップバイステップで解説します。すでに個別のツールを知っている方が、それらを「つなげて作品にする」ための実践ガイドです。
パイプライン全体像
Script(ChatGPT)
→ Character Base Images(Nano Banana Pro, reference)
→ Scene Images(Nano Banana Pro, reference upload)
→ Video Generation(Kling 3.0 Omni or per-scene tool)
→ Narration(ElevenLabs v3 with emotion tags)
→ BGM(SUNO via Gemini)
→ Final Edit(combine, trim, subtitles)
各ステップの出力が次のステップの入力になります。特に重要なのは、前のステップの品質が後のすべてに影響するということです。脚本が弱ければ映像も弱くなり、画像が良くなければ動画も良くなりません。
Step 1: 脚本を作る
ChatGPT(GPT-5.4)を使って脚本を作成します。カジュアルな指示でも十分な品質の脚本が返ってきます。
脚本に含めるべき要素
- キャラクター設定 — 名前、年齢、外見の特徴、性格
- シーン構成 — 場所、時間帯、状況
- セリフ — 1カットにつき1〜2文まで(長いとAIの音声と映像がずれる)
- カメラワーク指示 — ロングショット/ミディアムショット/クローズアップ、カメラの動き
- 感情の方向 — 各シーンでキャラクターがどんな感情にあるか
ChatGPTへの指示例
60秒のショートドラマの脚本を書いてください。
テーマ:雪の海辺で再会する元恋人
キャラクター:20代後半の日本人男女
トーン:切ないけれど温かい
以下の形式で各カットを記述してください:
カット[N]([秒数]秒):[カメラワーク]。[画角]。[動作]。[表情]。[キャラ名]「[セリフ]」
セリフは1カットにつき1〜2文まで。
カメラワークは連続するカットで同じにしないこと。
ChatGPTが出力する脚本は、そのまま次のステップで使えるフォーマットになります。セリフの長さがカットの秒数に収まるかは、実際に声に出して読んで確認してください。
Step 2: キャラクターのベース画像を作る
Nano Banana Proで、各キャラクターのベース画像を生成します。シンプルな背景で正面ショットを作り、これを全シーンのリファレンスとして使います。
シンプルな白背景、正面を向いた25歳の日本人女性のポートレート。
黒髪セミロング、ナチュラルメイク。均一なスタジオ照明。
白いニットセーター。上半身ショット。文字なし
キャラクターが複数いる場合は、それぞれのベース画像を個別に生成します。ベース画像の品質がプロジェクト全体の一貫性を左右するため、納得いくまで何度か生成し直してください。詳細はキャラクター一貫性の保ち方を参照してください。
Step 3: シーン画像を生成する
ベース画像をリファレンスとしてアップロードし、各シーンの画像を生成します。
重要なルール
- 顔の特徴をプロンプトに書かない — リファレンスから自動転写される
- 動きの途中を捉えた画像にする — 静止した棒立ち画像は動画化で不自然になる
- カラーグレーディングを全シーンで統一する — プロンプト末尾にテンプレートを追加
- 被写体の周囲に空間を残す — 動きの余白がないと動画化で窮屈になる
シーン画像プロンプトの例
(リファレンス画像をアップロードした状態で)
雪の積もった海辺。夕暮れ。女性が海を見つめている。
後ろ姿。コートの襟を立てている。
風で髪が少しなびいている。ロングショット。
ホワイトバランスはやや寒色寄り、コントラストは自然、
空気感のある柔らかなライティング。文字なし
AI動画制作をもっと深く学びたい方へ
Algentio AI Professional Academyでは、AI動画制作を含むAI活用スキルを体系的に学べるプログラムを準備中です。
LINEで開講情報を受け取るStep 4: 動画を生成する
シーンの内容に応じてツールを使い分けます。
| シーンの種類 | 推奨ツール | 理由 |
|---|---|---|
| 人物の会話、リップシンク | Kling 3.0 Omni | 最も自然な人物の動き+音声同時生成 |
| アニメスタイル | Vidu Q3 | アニメ表現+リップシンク精度が高い |
| 食べ物、日常の微細な動き | Seedance | スマホで撮ったような自然な質感 |
| 風景、ドローンショット | Hailuoai | ダイナミックなカメラワーク |
| シーン間のトランジション | Kling 2.5 Turbo | スタート+エンドフレームで滑らかな遷移 |
Kling 3.0 Omniでのマルチカット生成
Kling 3.0 Omniは、複数のカットを一度に生成できます。脚本のカット形式をそのまま入力できるため、ショートドラマとの相性が抜群です。
カット1(2秒):ロングショット。雪の積もった海辺。
遠くに凍てついた海が見える。女性と男性。海を見ている。
カット2(4秒):ミディアムショット。女性が口を開く。
女性「ねえ、覚えてる?初めてここに来た時のこと」
カット3(5秒):クローズアップ。男性の横顔。
少し寂しそうな笑顔。男性「覚えてるよ。」
カメラワークのルール
- カメラワークの組み合わせは最大2つまで(例:ズームイン+パン)
- 3つ以上指定すると不自然な動きになる
- 連続するカットで同じショット構成+カメラワークを使わない
- 良い組み合わせ:ズームイン+パン、ドリー+ティルト
Step 5: ナレーションとセリフを作る
ElevenLabs v3で音声を生成します。詳細はElevenLabsナレーションガイドを参照してください。
ドラマでの感情タグ設計
各セリフに感情タグを挿入します。すべての文の切れ目でタグを再指定することが重要です。
[calm]ねえ、覚えてる?[nervous]初めてここに来た時のこと。
[sad][slow]覚えてるよ。
[calm]あの時は夏だったね。[happy]海がすごくきれいだった。
[sad]うん。[sighs]もう、あんな日は来ないのかな。
セリフの長さとカットの長さを一致させる
4秒のカットに10秒分のセリフを入れることはできません。脚本の段階でセリフを声に出して読み、秒数を確認してください。1カットにつきセリフは1〜2文が限度です。
Step 6: BGMを作る
GeminiまたはChatGPTにシーンの説明を渡し、SUNOプロンプトを生成してもらいます。詳細はSUNOでBGMを作るテクニックを参照してください。
【Geminiへの指示】
以下のショートドラマに合うBGMのSUNOプロンプトを作ってください。
雪の海辺で再会する元恋人の60秒ドラマ。
切ないが温かいトーン。冬の寂しさと再会の喜びが共存。
ボーカルなし、ループ不要。
Step 7: 最終編集
生成した動画、音声、BGMを編集ソフトで組み合わせます。
- 動画クリップの配置 — 脚本の順番通りにタイムラインに並べる
- トリミング — 各クリップの不要な部分をカット
- 音声の配置 — セリフを対応するカットに合わせる
- BGMの配置 — 全体に敷き、セリフの邪魔にならない音量に調整
- 字幕の追加 — セリフをテロップとして表示
- 音量バランスの最終調整 — セリフ > BGM > 効果音の優先順位
Show Don't Tell の原則
ショートドラマの品質を最も大きく左右するのが「Show Don't Tell」の原則です。これは「言わないで伝える設計」を意味します。
ダメな例
キャラクターが「私、疲れてるの...」と言うセリフ。
良い例
キャラクターがドアを開け、靴を脱ぎ、ソファに倒れ込む映像。机の上に空になったエナジードリンクの缶が3本。セリフなし。
視聴者は映像から情報を読み取ることで、より深く物語に没入します。AIが作る画像にも「生活感」を持たせることが重要です。部屋に楽器があれば音楽好きと伝わり、参考書が散乱していれば受験生と伝わります。
一つの間違った小道具(1960年代の物語にノートパソコン)で没入感が完全に壊れます。時代設定のあるドラマでは、存在すべきものだけでなく、存在してはいけないものも意識してください。
マルチカットテンプレート
Kling 3.0 Omni フォーマット
カット[N]([秒数]秒):[カメラワーク]。[画角]。[動作]。[表情]。[キャラ名]「[セリフ]」
Vidu Q3 フォーマット
[Cut1]自撮り風ショット。女の子のセリフ「今日はこちらのカフェをご紹介していきます」
[Cut2]女の子がレジに並んでいるシーンを横から見たクローズアップ。
テンプレート使用時の注意
- 1カットあたり15秒が上限(Kling Omni)
- セリフは1〜2文まで(長いと音声がずれる)
- 連続するカットでショット構成とカメラワークの両方を変える
- セリフの長さは実際に声に出して確認する
品質チェックリスト
公開前に以下をすべて確認してください。
- キャラクターの顔が全シーンで一貫しているか
- カラーグレーディングが統一されているか
- ショット構成が連続するカットで異なっているか
- カメラワークが物語の意図に沿っているか(感情のピーク=ズームインなど)
- セリフの長さがカットの秒数に収まっているか
- 感情タグが全文に挿入されているか
- AIっぽさ(過剰な完璧さ)がないか
- モーション対応画像を使っているか(凍ったような静止画になっていないか)
- 環境のディテールがキャラクターの文脈と合っているか
- インパクトのあるシーンが冒頭に配置されているか(フック)
- 動画が綺麗に終わっているか(不要な余白がないか)
ショートドラマの制作は、最初は各ステップに時間がかかります。しかし、パイプラインに慣れてくると、1〜2時間で60秒のドラマを仕上げられるようになります。最初は30秒程度の短い作品から始めて、パイプラインの流れを体に覚えさせることをお勧めします。