AI動画のための画像設計：モーション対応素材の作り方

AI動画の品質に最も大きな影響を与える要素は何でしょうか。動画生成ツールの選び方、カメラワークの指示、プロンプトの書き方。どれも重要ですが、実は最も大きな影響を与えるのは、入力する画像そのものです。

どんなに優れた動画生成ツールを使っても、「凍りついたような静止画」からは不自然な動きしか生まれません。逆に、動きを前提に設計された画像であれば、どのツールを使っても自然な映像が生成されやすくなります。この記事では、AI動画化を前提とした画像設計の具体的なテクニックを解説します。

なぜ画像設計が動画品質を決めるのか

AI動画生成ツールは、入力された画像を起点にして「次のフレーム」を予測的に生成します。つまり、最初の画像が動きの手がかりを含んでいるかどうかで、生成される映像の品質が根本的に変わります。

AI動画の品質が悪い原因の第1位は、ソース画像にあります。「凍りついた時間」の画像（全体にシャープなフォーカス、動きの手がかりなし）は、AIに静止状態からの動き出しを強制し、不自然でぎこちない動きを生んでしまいます。

スタジオで撮影された完璧なポートレート写真は、写真としては美しくても、動画の素材としては最悪です。なぜなら、そこには「動き」の痕跡がまったくないからです。AIは静止した世界をどう動かすか手がかりがなく、結果として全体がゆっくりぬるっと動くような不自然な映像になります。

一方、街を歩いている途中でスマートフォンで撮ったような写真、被写体の髪が風で少し動いていて、背景が微妙にブレていて、体が歩行の中間姿勢で捉えられている。そんな画像からは、驚くほど自然な動画が生成されます。

モーション対応画像の4つの属性

動画化に適した画像には、以下の4つの属性があります。すべてを同時に満たす必要はありませんが、少なくとも2つ以上を含めることで、生成される動画の品質は劇的に向上します。

1. モーションブラー

被写体や体の一部に、動きを示す微妙なブレがあること。完全にシャープな画像は「静止」を意味します。手の動き、髪の揺れ、服の裾のなびきなど、どこかに動きの痕跡を残すことが重要です。

プロンプトでは以下のように指定します。

少し手ブレしていて、低解像度ぎみ。無加工でリアル。

2. カメラトラッキング感

被写体を追いかけるカメラの動きが感じられる画像です。具体的には、被写体にフォーカスが合っていて、背景にわずかな流動ブレがある状態。これにより、AIは「カメラが被写体を追いかけている」と解釈し、自然な追従映像を生成します。

被写体はシャープ、背景は微妙にブレている。この差が「動いているカメラ」の感覚を生みます。

3. ミッドアクションキャプチャ

被写体が動作の途中で捉えられていること。これは最も重要な属性です。直立不動のポーズではなく、歩行の途中、振り返る途中、カップを口に運ぶ途中、これらの「途中」の瞬間を画像にすることで、AIはその前後の動きを自然に補完できます。

たとえばコーヒーを飲む画像なら、カップが口から10cm離れた「持ち上げている途中」が最適です。カップが唇についた状態や、テーブルに置かれた状態では、動きの方向性をAIが読み取れません。

4. 自然なアイレベル視点

ハイパーシャープなスタジオショットではなく、人間の目線で見たような自然なパースペクティブ。上から見下ろすような構図や、下から見上げるような構図は意図的に使う場合を除き、目の高さからの自然な視点が最も安定した動画を生みます。

これは「完璧に計算された構図」を避けるということでもあります。少しだけ被写体が画面の中心からずれている、背景に余計なものが映り込んでいる、そうした「生活感」のある構図が、リアリティのある動画につながります。

良い動画を生むための画像5原則

4つの属性に加え、実際の画像生成で意識すべき5つの原則があります。

シンプルな構図 — 被写体は一つ。背景はシンプルに。情報量が多すぎると、AIはどこを動かすべきか判断できません
明確な被写体 — フォーカスと明るさが適切で、顔や手がはっきり見えること。暗すぎる画像や、被写体が小さすぎる画像からは品質の高い動画は生まれません
動きの余白 — 被写体の周囲にスペースを残すこと。フレームいっぱいに被写体を入れると、動きの余地がなくなります。被写体が右を向いているなら、右側に余白を残す
自然な角度 — 目の高さから軽い角度が最も安全。極端な角度は意図的な演出として使う場合のみ
暗示的な動き — ミッドアクションのポーズは、静止ポーズよりもはるかに自然に動画化されます

「AI感」を消す画像設計

AI生成画像には特有の「AI感」があります。それは技術的な欠陥ではなく、過剰な完璧さに起因します。肌が滑らかすぎる、髪の毛1本1本が整いすぎている、背景の要素がすべて「もっともらしい」けれど生気がない。こうした特徴が見る人に「これはAIが作った」と無意識に感じさせます。

AI感を消す画像プロンプト

以下の要素をプロンプトに追加することで、AI感を大幅に軽減できます。

スマホ撮影感 — スマホ動画の1フレームを切り出したようなフォトリアル写真
友人視点 — 友達が何気なく撮ったような自然な視点
色温度の指定 — 色温度はナチュラルな昼光（5000〜5500K）、コントラストは自然で、スマホカメラらしい軽いHDR
リアリティ番組風 — 恋愛リアリティ番組みたいな

フォトリアリスティック修飾語

以下の修飾語を常に含めることで、一貫してリアルな質感を得られます。

35mm lens（または26mmでスマホ風）
natural perspective
film grain
shallow depth of field
F1.8 equivalent
cinematic composition

AI動画制作をもっと深く学びたい方へ

Algentio AI Professional Academyでは、AI動画制作を含むAI活用スキルを体系的に学べるプログラムを準備中です。

LINEで開講情報を受け取る

スマートフォンフレームの美学

AI動画制作で最も効果的な画像スタイルは、意外にも「スマートフォンで撮った動画の1フレーム」です。これは偶然ではありません。

スマートフォンで撮影された映像には、自然なモーションブラー、手持ちによるわずかなブレ、26mm相当の広角によるパースペクティブ、そして「何気なさ」があります。これらはすべて、AIが動画を生成する際のヒントになります。

スマホ風画像のプロンプトテンプレート

スマホ動画の1フレームを切り出したようなフォトリアル写真。
[被写体の描写]。[場所と状況]。
色温度はナチュラルな昼光（5000〜5500K）、コントラストは自然で、
スマホカメラらしい軽いHDR。26mmレンズ相当。
少し手ブレしていて、無加工でリアル。文字なし。

このテンプレートの[被写体の描写]と[場所と状況]を差し替えるだけで、一貫してモーション対応の画像を生成できます。

なぜ26mmなのか

26mmはiPhoneの標準レンズに近い画角です。35mmのシネマチックな画角もよく使われますが、「日常感」「Vlog感」を出したい場合は26mmが最適です。35mmにするとやや「作られた」印象になり、26mmにすると「そこにいる人が撮った」印象になります。

実践プロンプト例

人物が歩いている画像

スマホ動画の1フレームを切り出したようなフォトリアル写真。
20代の日本人女性が渋谷のスクランブル交差点を歩いている。
歩行の中間、左足が前に出ている瞬間。
髪が風で少し揺れている。背景は自然にブレている。
色温度はナチュラルな昼光、スマホカメラらしい軽いHDR。
26mmレンズ相当。文字なし。

食事シーンの画像

友達が何気なく撮ったような自然な視点。
カフェのテーブル越しに、女性がコーヒーカップを口元に運んでいる途中。
カップは唇から10cmほどの位置。両手で持っている。
柔らかい窓際の自然光。背景のカフェインテリアはボケている。
35mmレンズ。shallow depth of field。F1.8。文字なし。

感情表現の画像

恋愛リアリティ番組みたいな。
夕暮れの海辺で、男性が振り返る瞬間。
体はまだ海を向いているが、顔だけがカメラ側を向き始めている。
夕日の逆光で髪の輪郭が光っている。
少し手ブレしていて、低解像度ぎみ。無加工でリアル。文字なし。

よくある失敗とその対策

失敗パターン	原因	対策
動画全体がぬるぬる動く	完全に静止した画像を入力している	ミッドアクション構図に変更する
被写体が動かず背景だけ動く	被写体の動きの手がかりがない	モーションブラーやポーズの途中を追加
不自然に早い動き	フレームいっぱいに被写体がいる	動きの余白（マージン）を確保する
顔が歪む	極端な角度の画像を使っている	アイレベルまたは軽い角度に修正
「AI感」が消えない	完璧すぎる画像を使っている	スマホ撮影感のプロンプトを追加

画像設計は、AI動画制作のスキルの中で最もリターンの大きい投資です。ツールの使い方やプロンプトのテクニックも重要ですが、まず入力画像を改善するだけで、出力の品質は劇的に変わります。

次の記事では、入力画像の次に品質を左右する「Kling AIの使い方」を、バージョン別に詳しく解説します。