AI動画制作で最も頻繁に直面する問題の一つが、「シーンが変わるたびにキャラクターの顔が別人になる」という現象です。髪の色が微妙に変わったり、目の大きさが違ったり、ほくろの位置がずれたり。これでは物語としての没入感が完全に崩れてしまいます。
この記事では、リファレンス画像を活用してキャラクターの一貫性を保つ実践的なテクニックを解説します。ショートドラマやストーリー動画を作る上で、このスキルは避けて通れない基礎技術です。
なぜキャラクターの顔が変わるのか
AI画像生成ツールは、プロンプトに基づいて毎回ゼロから画像を生成します。「20代の日本人女性、黒髪ロング」と指示しても、生成のたびに異なる「20代の日本人女性」が出てきます。これは仕様であり、バグではありません。
従来のアプローチでは、プロンプトにキャラクターの容姿を詳細に書き込むことで対処しようとしていました。「丸い目、小さな鼻、左頬にほくろ、肩にかかる黒髪」のように。しかし、この方法には限界があります。テキストによる顔の記述は曖昧さを排除できず、生成結果にばらつきが出ます。
この問題を根本的に解決するのがリファレンス画像メソッドです。言葉で顔を説明するのではなく、画像そのものを参照元として渡すことで、AIに「この人物と同じ顔を使え」と指示します。
リファレンス画像メソッドの基本
リファレンス画像メソッドの流れは非常にシンプルです。
- ベース画像を生成する — シンプルな背景でキャラクターの正面写真を作る
- ベース画像を保存する — これがすべてのシーンの「顔の設計図」になる
- 各シーンでベース画像をアップロードする — リファレンスとして参照させる
- 新しいプロンプトでは顔の特徴を記述しない — 顔はリファレンスから自動転写される
重要なのはステップ4です。リファレンス画像をアップロードした状態で、さらにプロンプトに「丸い目、小さな鼻」などと書くと、AIが混乱して一貫性が崩れることがあります。リファレンスに任せるべき部分はリファレンスに任せて、プロンプトにはシーンの状況だけを記述します。
ベース画像の作り方
ベース画像の品質がプロジェクト全体の一貫性を左右します。以下のポイントを押さえて作成してください。
背景はシンプルに
白背景やグレー背景など、できるだけシンプルな背景でキャラクターを生成します。複雑な背景があると、後のシーンでAIが背景要素を顔の特徴と混同する可能性があります。証明写真のような構図が最適です。
正面からのショットを基本に
顔の特徴を最も多く記録できるのは正面ショットです。斜め45度くらいのショットも有効ですが、横顔だけでは情報が不足します。可能であれば、正面と斜めの2枚を用意するとより安定します。
照明は均一に
強い影や逆光のあるベース画像は避けてください。均一な照明で顔の特徴がはっきり見える状態がベストです。ここで使うプロンプトの例を紹介します。
シンプルな白背景、正面を向いた20代の日本人女性のポートレート。
黒髪ロング、ナチュラルメイク。均一なスタジオ照明。
上半身ショット。文字なし
Google Nano Banana Proを使う場合、Freepikの画像生成ツールから「+」ボタンでリファレンス画像をアップロードできます。まずこのベース画像を生成し、以降のすべてのシーンでこの画像をリファレンスとして使います。
服装の初期設定
ベース画像の段階で、物語の序盤で着る服装も設定しておくと良いでしょう。ただし、シーンによって服装が変わる場合は、プロンプトで明示的に衣装を指定する必要があります。服装はリファレンスから自動転写されますが、意図的に変更する場合はプロンプトで上書きできます。
シーン画像の生成テクニック
ベース画像ができたら、各シーンの画像を生成していきます。ここでのプロンプトの書き方が一貫性の成否を分けます。
顔の記述を省く
最も重要なルールです。リファレンス画像をアップロードした状態では、プロンプトに顔の特徴を書かないでください。書くべきなのは以下の要素だけです。
- 場所 — 「カフェのテラス席」「雨の渋谷スクランブル交差点」
- アクション — 「コーヒーカップを持って微笑んでいる」「傘をさして歩いている」
- 服装(変更がある場合のみ) — 「白いワンピースに着替えて」
- 時間帯・天候 — 「夕方の柔らかい光」「曇天の下」
- カメラアングル — 「ミディアムショット」「やや見上げるアングル」
悪い例と良い例を比較してみましょう。
【悪い例】
丸い目で小さな鼻の20代日本人女性が、カフェでコーヒーを飲んでいる。
黒髪ロング。微笑んでいる。
【良い例】(リファレンス画像をアップロードした状態で)
カフェのテラス席。コーヒーカップを両手で持ち、
少し微笑んでいる。午後の柔らかな自然光。
ミディアムショット。文字なし
悪い例では顔の特徴を再度記述しており、リファレンスとの干渉が起きます。良い例ではシーンの状況だけを伝え、顔の再現はリファレンスに完全に委ねています。
Edit Modeの活用
Nano Banana Proには「Edit Mode」があり、画像の一部だけを変更できます。たとえば、同じ人物の服装だけを変えたい場合、フルで再生成するのではなくEdit Modeを使うことで、顔の一貫性を維持したまま部分的な変更が可能です。
AI動画制作をもっと深く学びたい方へ
Algentio AI Professional Academyでは、AI動画制作を含むAI活用スキルを体系的に学べるプログラムを準備中です。
LINEで開講情報を受け取る一貫性を保つ5つのポイント
リファレンス画像メソッドを使ったとしても、他の要素がバラバラではキャラクターの「同一人物感」が損なわれます。以下の5つのポイントを全シーンで意識してください。
1. リファレンス画像を必ず使う
当たり前のようですが、「1シーンだけだから」とリファレンスなしで生成すると、そのシーンだけ別人になります。例外なく、すべてのシーンでベース画像をリファレンスとしてアップロードしてください。
2. 服装を統一する(または明示的に変更する)
同じシーケンス内(同じ日、同じ場面)では服装を統一します。プロンプトに服装の記述がない場合、AIは勝手に服装を変えることがあります。リファレンス画像の服装をそのまま使いたいなら記述不要ですが、確実を期すならプロンプトにも書いておくと安心です。
服装を意図的に変える場合(日が変わる、着替えるシーンなど)は、プロンプトで明示的に新しい服装を記述します。
3. 時間帯を統一する
「午後の光」「夕暮れ」「夜」など、同じシーケンス内では時間帯の指定を統一します。「afternoon light」と書いたシーンの次に時間帯の指定を忘れると、AIがランダムな照明で生成してしまい、同じ場面なのに光の方向が変わるという不自然な結果になります。
4. 色調(トーン)を統一する
「warm tones」「cool tones」「muted colors」など、色の方向性を統一します。暖色系で統一している作品で、1シーンだけ寒色系になると違和感が生まれます。これは後述するカラーグレーディングの統一とも密接に関わります。
5. ロケーションをシーケンス内で固定する
同じ会話シーンなのに背景が微妙に変わるのは、視聴者に違和感を与えます。同じシーケンス内では場所の記述を統一し、異なるアングルから撮っている場合でもロケーションの基本要素(室内なら壁の色や家具、屋外なら建物や植生)を一貫させます。
カラーグレーディングの統一
キャラクターの一貫性と並んで重要なのが、全シーンを通じたカラーグレーディングの統一です。プロの映像作品が高品質に見える理由の一つは、カラーグレーディングが作品全体で統一されていることにあります。
AI動画制作でこれを実現するには、すべてのプロンプトにカラーグレーディング指定を含めることが必要です。
プロンプトに追加すべき要素
| 要素 | 記述例 | 効果 |
|---|---|---|
| ホワイトバランス | ナチュラル寄り / やや暖色 | 全体の色味の方向性を統一 |
| コントラスト | 強すぎず自然 / ローコントラスト | 明暗の差を統一 |
| 色温度 | 5000-5500K / 暖色3200K | 光の色味を統一 |
| ライティング | 空気感のある柔らかなライティング | 光の質感を統一 |
実際のプロンプトでは、シーンの記述の後に以下のような一文を追加します。
ホワイトバランスはナチュラル寄り、コントラストは強すぎず、
空気感のある柔らかなライティング。
色温度はナチュラルな昼光(5000〜5500K)。
この一文をテンプレートとして保存しておき、すべてのシーンのプロンプトの末尾に追加するだけで、作品全体のトーンが統一されます。プロジェクトのトーンに合わせてテンプレートを一度作れば、あとはコピー&ペーストです。
トーン別テンプレート例
ノスタルジック・暖色系:
ホワイトバランスはやや暖色寄り、コントラストはローコントラスト、
フィルムグレインを感じさせる質感。色温度は3500K程度の暖かい光。
80年代の映画のような柔らかいハレーション。
クール・モダン系:
ホワイトバランスはやや寒色寄り、コントラストはやや高め、
シャープで現代的なライティング。色温度は6500K程度の青白い光。
都会的でクリーンな印象。
ナチュラル・ドキュメンタリー系:
色温度はナチュラルな昼光(5000〜5500K)、コントラストは自然で、
スマホカメラらしい軽いHDR。加工感のないリアルな質感。
年齢操作のテクニック
ストーリー動画では、同じキャラクターの過去や未来を描くために年齢操作が必要になることがあります。Nano Banana Proでの年齢操作には独特のコツがあります。
直接的な年齢変更は失敗しやすい
「20歳の女性を35歳にして」と指示しても、AIにとって15歳の差は微妙すぎて、ほとんど変化のない画像が生成されることが多いです。これは年齢の差が小さすぎてAIが明確な変化を生成できないためです。
一度大きく老けさせてから戻す
解決策は「一度大幅に老けさせてから、ターゲット年齢まで戻す」というアプローチです。
- ベース画像(20歳)を用意する
- 「60歳にして」と指示して大幅に老けさせる(しわ、白髪、たるみが明確に追加される)
- その60歳の画像を元に「35歳にして」と指示する(若返りの方向で、明確な中年の特徴が残る)
このステップを踏むことで、同じ人物の顔の特徴を保ちながら、年齢による変化を自然に表現できます。直接20歳から35歳に変えるよりも、はるかに説得力のある結果が得られます。
子供の年齢操作
キャラクターを子供にする場合は、単に「5歳にして」と書くだけでは不十分です。必ず「5歳の子供にして」と「子供」という単語を含めてください。「子供」がないと、AIが大人の顔のまま体だけ小さくするような不自然な結果を生成することがあります。
よくある問題と対処法
「誰?」問題(キャラクターが完全に別人になる)
リファレンス画像をアップロードしているのにまったく別人が生成される場合、以下を確認してください。
- リファレンス画像が正しくアップロードされているか(プラットフォームのUIで確認)
- プロンプトに顔の特徴を書いていないか(干渉の原因)
- 背景や状況が極端に異なっていないか(暗すぎる、遠すぎるなど)
Nano Banana Proでは、Proバージョンの方がNano Banana 2よりも若干一貫性が弱い場合があります。キャラクター一貫性を最優先する場合はNano Banana 2の使用も検討してください。ただし、画像品質のトレードオフがあります。
横顔でキャラクターが崩れる
正面のベース画像を使っていても、横顔のシーンでは特徴の再現度が下がることがあります。対処法として、ベース画像の段階で斜め45度の画像も生成しておき、横顔のシーンではそちらをリファレンスとして使う方法があります。
服装がリセットされる
リファレンス画像と異なる服装のシーンを生成した後、次のシーンでまた元の服装に戻ってしまうことがあります。服装変更後のシーンでは、変更後の服装をプロンプトに毎回明記してください。AIはリファレンス画像の服装に引き戻される傾向があります。
複数キャラクターの管理
2人以上のキャラクターが登場する作品では、キャラクターごとにベース画像を用意します。同じシーンに複数キャラクターが登場する場合は、一度に生成するよりも、キャラクターごとに別々に生成して最終編集で合成する方が一貫性を保ちやすいです。
キャラクターの一貫性は、AI動画制作における「基礎体力」のようなものです。一貫性のある画像が作れるようになると、ストーリーテリングの幅が一気に広がります。まずはベース画像を丁寧に作り、5つのポイントをチェックリストとして使いながら、シーンを一つずつ積み上げていきましょう。