映像制作の世界では「映画は51%が音」と言われます。視覚的に美しい映像でも、音がなければ臨場感は生まれません。逆に、適切な効果音やBGMがあれば、少し粗い映像でも視聴者を引き込むことができます。

AI動画制作においても、サウンドデザインは最終品質を左右する重要な工程です。この記事では、ElevenLabsのSFX生成機能を中心に、Klingのネイティブ音声、SUNOによるBGM生成、そしてそれらを効果的に組み合わせるテクニックを解説します。

サウンドデザインの役割

AI動画のサウンドデザインには、3つのレイヤーがあります。

  1. 効果音(SFX) — 映像中の具体的なアクションに紐づく音。ドアが開く、足音、食器の音
  2. 環境音(アンビエンス) — シーンの場所を定義する背景音。カフェのざわめき、雨の音、鳥の鳴き声
  3. BGM — シーンの感情を補強する音楽。ムードの設定と維持

この3つを適切に重ねることで、映像は「見る」ものから「体験する」ものに変わります。特にAI動画は映像だけでは「AI臭さ」が残りやすいですが、リアルな音響設計が加わると、その印象を大幅に和らげることができます。

ElevenLabs SFX:効果音生成の基本

ElevenLabsは音声合成で有名ですが、テキストから効果音を生成する機能も備えています。テキストプロンプトを入力すると、4つのバリエーションが同時に生成されます。

基本ルール

シンプルなプロンプト例

footsteps on wooden floor

rain hitting a window

car engine starting

keyboard typing in an office

glass breaking on tile floor

効果音プロンプトの書き方

効果音のプロンプトには、いくつかの効果的なパターンがあります。

パターン1: 直接的な音の記述

最もシンプルなアプローチ。「何の音か」を直接書きます。

a door slowly creaking open

thunder rolling in the distance

bubbles rising in boiling water

パターン2: ストーリーベース

ElevenLabsのSFX生成は、時間的な流れのある記述を理解できます。単発の音ではなく、一連のアクションとして書くと、より自然なシーケンスが生成されます。

A man walks through a hallway and then falls down some stairs
A cup of coffee is placed on a saucer, then someone stirs it with a spoon
An old car approaches from the distance, slows down, and the engine turns off

このパターンは特に、複数の音が連続するシーンで威力を発揮します。個別の効果音を後から編集で重ねるよりも、自然なタイミングの音が得られます。

パターン3: 環境音の記述

環境音はループモードと組み合わせて使います。

busy Japanese cafe, conversations, coffee machine, soft background music

quiet forest at dawn, birds singing, gentle breeze through leaves

city street at night, distant traffic, occasional footsteps

AI動画制作をもっと深く学びたい方へ

Algentio AI Professional Academyでは、AI動画制作を含むAI活用スキルを体系的に学べるプログラムを準備中です。

LINEで開講情報を受け取る

品質修飾語とストーリーベースの書き方

効果音の品質を上げるための最も効果的なテクニックが、品質修飾語の追加です。

推奨する品質修飾語

修飾語 効果
high-quality 全体的な音質の向上
professionally recorded スタジオ録音のようなクリアさ
cinematic 映画的な迫力と深み
realistic フィールドレコーディングのような臨場感
subtle 控えめで繊細な音
dramatic 誇張された、インパクトのある音

品質修飾語ありのプロンプト例

high-quality, professionally recorded, sizzling steak on a hot plate,
oil crackling, steam rising
cinematic, dramatic, thunder strike followed by heavy rain,
wind howling through trees
realistic, subtle, paper pages turning slowly,
quiet room with distant clock ticking

品質修飾語はプロンプトの先頭に置くのが効果的です。AIが最初に「この音の品質基準」を認識した上で、具体的な音の内容を処理するため、より一貫した品質の出力が得られます。

プロンプトは簡潔に

効果音のプロンプトは簡潔であるほど良い結果が出ます。長い説明文を書くと、AIが混乱して中途半端な音になりがちです。品質修飾語 + 核心の音の記述で十分です。

Klingネイティブ音声の活用

ElevenLabs SFXとは別のアプローチとして、Kling AIの動画生成時に音声をONにする方法があります。

Klingネイティブ音声の強み

Klingネイティブ音声の弱点

使い分けの指針

シーン 推奨音源 理由
食べるシーン Klingネイティブ 咀嚼音と映像の同期が自然
カフェの環境音 Klingネイティブ 背景音が映像に合わせて生成される
ドアの開閉 ElevenLabs SFX タイミングと音質を細かく制御したい
雨、雷 ElevenLabs SFX ドラマチックな音質が必要
街の雑踏 どちらでも可 ループならElevenLabs、映像同期ならKling

BGMとの組み合わせ

効果音と環境音の上にBGMを重ねることで、シーンの感情が完成します。

BGM生成のワークフロー

  1. 動画の内容と感情をテキストで記述する
  2. GeminiまたはChatGPTに、SUNO向けのプロンプトを生成させる
  3. SUNOの「Styles」フィールドに貼り付けて生成する
  4. 複数のバリエーションから、映像に最も合うものを選ぶ

SUNO向けプロンプトの例

warm acoustic, fingerpicking guitar, soft piano,
gentle cafe atmosphere, cozy, intimate,
no vocals, instrumental, loopable
tense, suspenseful, low strings, subtle electronic pulse,
dark atmosphere, building tension, minimal,
no vocals, instrumental
uplifting, hopeful, orchestral pop, bright strings,
soft percussion, warm, emotional crescendo,
no vocals, instrumental

BGMのレイヤーのルール

音量バランスとミキシング

サウンドデザインの最後のステップは、すべての音のバランスを調整するミキシングです。

音量の基準値

レイヤー 相対音量 備考
セリフ/ナレーション 100%(基準) 最も聞こえるべき音
主要効果音 70-90% アクションに直結する音
環境音 30-50% 意識されない程度の存在感
BGM 20-40% セリフがない場面では50-60%まで上げてよい
サウンドデザインの鉄則:「聞こえないけど、ないと寂しい」が環境音の理想的な音量。意識的に聞こうとしないと聞こえないレベルが正解。

サウンドデザインのワークフロー

効率的なサウンドデザインの手順をまとめます。

  1. 映像を通しで見て、必要な音をリスト化する — シーンごとに「何の音が必要か」を書き出す
  2. Klingネイティブ音声で使える音を確認する — 映像生成時にONにした音で十分か判断する
  3. 不足する効果音をElevenLabs SFXで生成する — 4バリエーション×必要数を生成し、ベストを選ぶ
  4. 環境音をElevenLabs SFXのループモードで生成する — シーンの「空間」を定義する音
  5. BGMをSUNOで生成する — Gemini/ChatGPTでSUNO向けプロンプトを作り、生成
  6. ミキシング — セリフ > 効果音 > 環境音 > BGM の順に音量を設定
  7. 通し確認 — 全体を再生し、音のバランスと映像との同期をチェック

この工程は、映像が完成してから行うのが基本です。映像のカットタイミングに合わせて効果音を配置する必要があるため、映像が確定してからサウンドデザインに入りましょう。