AI動画生成

思い通りの効果が出ない？それは「画面を描写する」やり方で AI 動画プロンプトを書いているから

2026-06-29約8分Tomato AI 編集部

思い通りの効果が出ない？それは「画面を描写する」やり方で AI 動画プロンプトを書いているから

ほとんどの人は AI 動画プロンプトを「小説」のように書いています——形容詞を並べて場面を描写し、モデルが自分の頭の中のイメージを当ててくれるのを期待しています。しかし、AI 動画モデルは画家ではありません。それは「監督」です。与えるべきなのは撮影現場の指示書であり、感想文ではありません。

この記事では公式や文型テンプレートは扱いません。それらは基礎公式や応用ガイドで詳しく解説済みです。

ここで答えるのは一つの問いだけです：プロンプトの方向性を正しくするにはどうすればいいか？

1. まず理解すること：あなたは誰に話しかけているのか

プロンプトを書くとき、多くの人の頭の中はこうなっています：

「夕暮れの麦畑を走る女の子、長い髪が風になびき、映画的な雰囲気。」

美しく聞こえます。でも考えてみてください——あなたは誰にこれを言っているのでしょう？

人間のカメラマンに言っているなら、彼は想像力で埋めてくれるでしょう。しかし AI 動画モデルは人間ではありません。「夕暮れ」の生活経験がなく、「映画的な雰囲気」がどんなカラーグレーディングを意味するのかわからず、「風になびく」の具体的な振幅を知りません。

モデルの世界の捉え方は、あなたとは完全に異なります。 モデルは内部でプロンプトを二つのレイヤーに分割します：

空間レイヤー：フレーム内に何があるか——主体、シーン、光、色
時間レイヤー：時間とともに何が変化するか——動作、カメラ運動、感情の変化

「映画的な雰囲気」は空間情報でも時間情報でもありません。それは評価であり、指示ではありません。モデルは訓練データでその言葉の近くに出現した画像から推測するしかありません——当たればラッキー、外れれば普通です。

だから最初の原則：「評価」を「指示」に置き換える。

書いたこと（評価型）	書くべきこと（指示型）
映画的な雰囲気	浅い被写界深度、ボケ背景、暖色の黄色トーン
女の子が悲しそう	女の子がうつむき、肩が微かに震え、指で服の裾を握り、目が赤くなる
動きがスムーズ	女の子がゆっくり歩き、足取りは軽く、中景で安定した追従ショット
光が綺麗	夕日が左45度から斜めに差し込み、暖色の琥珀色トーン、被写体の輪郭にリムライト

書くすべての言葉は、モデルが実行できるものでなければならず、感じるものであってはなりません。

2. プロンプト品質の 5 つのレベル

誰もが同じスタートラインにいるわけではありません。自分がどのレベルにいるか確認してください：

レベル 1：一文描写（初級者）

女の子が通りを歩く。

問題：主体が曖昧、動作が単一、シーンなし、カメラ指示なし。モデルは自由に解釈し、結果は完全に制御不能。

レベル 2：形容詞の追加（入門者）

赤いドレスの女の子が賑やかな通りを楽しそうに歩く、綺麗な夕焼け。

レベル 1 よりマシですが、「賑やか」「楽しそう」「綺麗」はすべて評価語です。生成結果は期待とかけ離れている可能性が高い。

レベル 3：構造化された指示（上級者）

ショット 1：夕方の通り、赤いドレスの女の子がゆっくり軽い足取りで歩く、口元に微笑み。中景で安定した追従ショット、暖色の夕日が左から斜めに差し込み、浅い被写界深度。

ここからまともになります。ショット分割、具体的な動作、カメラ運動、光の記述があります。真剣にプロンプトを学んだ人の多くはここで止まります。

レベル 4：マルチモーダル指示（プロフェッショナル）

@画像1 の女の子を主人公とし、@画像2 を通りのシーン参考とし、@動画1 のカメラ運動を参考にする。

ショット 1：女の子がゆっくり軽い足取りで歩く、口元に微笑み。中景で安定した追従ショット、暖色の夕日が左から斜めに差し込み、浅い被写界深度。（背景に軽快なギター曲）

このレベルの鍵は、テキストがどれだけ上手いかではなく、何を素材に任せるかを知っていることです。キャラクターの外見？参考画像に任せる。カメラスタイル？参考動画に任せる。音色？音声に任せる。テキストは「編成」だけを担当します。

レベル 5：エンジニアリング的反復（マスター）

（1 回目生成後）3 秒目で顔がブレる。

修正：別の顔クローズアップを @画像3 として用意し、「顔が安定して変形しない」制約を追加して再生成。

（2 回目生成後）切り替わり部分でジャンプカット。

修正：ショット 1 と 2 の間にトランジション動作「女の子が立ち止まり、カメラの方を向く」を追加して再生成。

レベル 5 のユーザーは最初から完璧を目指しません。プロンプトをデバッグ可能なコードとして扱います：生成 → 問題を観察 → 的を絞った修正 → 再生成。毎回結果をターゲットに近づけます。

多くの人の問題は「書けない」ことではなく、レベル 2 で止まって結果が出ると思っていることです。

3. 方向性が文法より重要：3 つの核心的認識

認識 1：「場面を描写する」のではなく「リソースを割り当てる」

初級者の最大の誤解：プロンプト＝テキストだと思っていること。

実際、AI 動画生成の入力はマルチモーダルリソースパッケージです：

テキストプロンプト（編成ロジック）
参考画像（主体の外見、シーンスタイルを固定）
参考動画（カメラ運動、動作リズム、スタイルを固定）
参考音声（音色、雰囲気を固定）

あなたの仕事はすべてをテキストで描写することではなく、それぞれの情報をどの媒体で伝えるべきか判断することです：

固定したいもの	最適な媒体	理由
キャラクターの外見	参考画像（顔クローズアップ）	顔をテキストで描写する＝災難
シーンスタイル	参考画像/コンセプトアート	「サイバーパンク」は人によって解釈が違う
カメラの動き	参考動画	カメラ運動は動的情報、テキストでは非効率
音色	参考音声	テキストでは音色を描写できない
出来事の順序	テキストプロンプト	テキストだけがナラティブロジックを表現できる
画面の制約	テキストプロンプト	「字幕なし」はルールであり、画面ではない

核心原則：素材に任せられるものはテキストに書かない。テキストは素材にできないこと——順序の編成、関係の定義、制約の付与——だけを担当する。

4-5 個の素材構成（キャラクター画像 1-2 枚 + シーン画像 1 枚 + カメラ参考動画 1 本 + 音声 1 つ）は、500 語の純テキスト描写に毎回勝ります。

認識 2：空間と時間を分けて考える

モデルは内部でプロンプトを「空間レイヤー」と「時間レイヤー」に分割します。だから書くときも 2 ステップで考えるべきです：

ステップ 1：空間レイヤー——このフレームに何があるか？

目を閉じて、フレームを一時停止し、自分に問いかける：

主体は誰？何を着ている？どんなポーズ？
どこ？屋内か屋外？どんなスタイルの環境？
光はどこから？何色？どんな雰囲気？

これを書き留めます——これが静的ベースレイヤーです。

ステップ 2：時間レイヤー——これらがどう変化するか？

フレームが動き出したら：

主体はどんな動作をしている？どのくらいの幅度？どのくらいの速さ？
カメラはどう動く？プッシュ、プル、パン、ティルト？
感情の変化はあるか？何から何へ？
シーンは変化するか？

これを時系列で並べます——これが動的オーケストレーションです。

多くの人の問題は空間と時間が混ざっていることです。分けるとプロンプトが劇的に明確になります。

実践テンプレート：

【空間】
主体：@画像1 の女の子、赤いドレス
シーン：@画像2 の夕方の通り
光：暖色の夕日が左 45 度から斜めに照射、浅い被写界深度
スタイル：映画的ドキュメンタリー風

【時間】
ショット 1：女の子がゆっくり歩く、軽い足取り、口元に微笑み。中景で安定した追従。
ショット 2：女の子が立ち止まり、カメラを向いて微笑む。ゆっくりプッシュインしてクローズアップへ。
ショット 3：女の子が前方に歩き続ける。ゆっくり引き、通りの全景で静止。

【制約】
顔が安定して変形しない、字幕なし、透かしなし。

書き終えたら、【空間】と【制約】を冒頭の「グローバル設定」としてマージし、【時間】だけをショット分割として残せば、構造的でプロフェッショナルなプロンプトになります。

認識 3：少ないほど良い、でも「正しい場所」で少なく

初級者のもう一つのよくある間違い：何もかも書こうとして、何も上手くいかない。

15 秒の動画に 8 つのショット、5 回のシーン切り替え、3 回の感情変化を書く——モデルは処理しきれません。各ショットが中途半端になり、動作が不完全、切り替えが不自然になります。

プロンプトの容量には限界があります。 モデルの注意力にも限界があります。書く一文ごとにこの予算を消費します。

正しいやり方：

1 ショットにつき一つのこと：一つの動作 + 一つのカメラ運動 + 一つの感情ポイント。欲張らない。
ショットを減らし、詳細を増やす：詳細に書き込んだ 3 ショットは、ざっくりした 8 ショットに勝る。
制約は最小限に：必要なものだけ（字幕なし、顔安定）。制約が増えるごとにモデルの自由度が下がり、品質が落ちる可能性がある。
モデルが既に知っていることを書かない：「高画質」はデフォルトなので強調しない。

検証基準： プロンプトを読み終えた後、目を閉じて頭の中で動画を再生できるか？できないなら——あなた自身が何を欲しいか分かっておらず、モデルはもっと分かりません。できるけど「情報量が多すぎ」と感じるなら——書きすぎです。重要でない半分を削ってください。

4. 反復マインドセット：プロンプトは草稿であり、完成原稿ではない

最も重要な方向転換：最初の生成が完璧でないことを受け入れる。

プロフェッショナルとアマチュアの最大の違いは、プロンプトの上手さではなく反復回数です。アマチュアは一度生成して気に入らないと諦めるか、完全に書き直します。プロフェッショナルは生成した後、一つのことをします——診断。

診断チェックリスト

毎回の生成後、このリストで問題を見つけます：

症状	根本原因	修正方向
顔が変わった/似ない	参考顔が小さい、または全身写真と混在	別の顔クローズアップを用意、顔が画面を埋める
動作がカクつく/繋がらない	動作幅度が大きすぎる、またはトランジション記述なし	ゆっくりした小動作に変更、動作の繋ぎを追加
カメラがブレる	1 ショットに複数のカメラ運動を指定	1 ショットにつき 1 種類のカメラ運動のみ
スタイルが違う	明確なスタイル制約がない	「2D アニメ風」や「3D 中国ファンタジー」等を追加
不要な字幕/ロゴが出る	参考素材に文字がある、または制約がない	素材の文字をクリーンアップ、「字幕なし」を追加
切替部でジャンプカット	ショット間にトランジションがない	ショット間にトランジション動作や画面を追加
シーン/キャラが混ざる	参考素材が多すぎて優先順位が混乱	4-5 個に削減、重要な素材を前に配置
品質低下（延長後）	複数回延長で累積劣化	延長回数を抑制、またはホワイトモデル法を使用

反復フロー

v1 を書く → 生成 → 診断 → 的を絞った修正 → 再生成 → 診断 → ...

1 回の反復につき 1 つの問題だけ修正。一度に多くを変えると、どの変更が効いたのか（悪影響だったのか）分かりません。

通常 2-3 回の反復で満足できる結果に届きます。一発で正解しようとしないでください——これは能力の問題ではなく、AI 動画生成の本質的特性です。モデルにはランダム性があり、同じプロンプトで 2 回生成しても結果が変わることがあります。目標はランダム性を許容範囲に収束することであって、排除することではありません。

5. 応用方向：「プロンプトを書く」から「プロンプトを設計する」へ

レベル 3 以上のプロンプトを安定して書けるようになったら、次は「もっと長く詳細に」ではなく「アプローチを変える」ことです。

アプローチ 1：絵コンテ先、プロンプト後

空の入力ボックスを見つめないでください。まず簡単なショット表を描きます（紙でも頭の中でも）：

ショット 1 | 中景追従     | 女の子が通りに入る | 暖色夕日
ショット 2 | クローズアップ | 女の子が立ち止まり微笑む | 浅い被写界深度
ショット 3 | 全景引き     | 女の子が遠ざかる   | 暖色トーン

この骨組みがあれば、プロンプトを埋めるのは「翻訳」です——各セルをモデルが理解できる指示に変換するだけ。ゼロから書くより 10 倍効率的です。

アプローチ 2：再利用可能なモジュールを作る

多くのシーンで要素が繰り返されることに気づくでしょう——カメラ運動、スタイル制約、品質要件。これらをモジュール化します：

カメラモジュール：中景で安定した追従 / ゆっくりプッシュインしてクローズアップへ / ゆっくり引き全景へ
制約モジュール：顔が安定して変形しない、自然でスムーズな動作、カクつきなし、フリッカーなし、字幕なし、ロゴなし
スタイルモジュール：映画的ドキュメンタリー風、暖色トーン、柔らかい光 / サイバーパンク寒色青紫トーン / 2D アニメ風

次回は、ブロックのようにモジュールを組み合わせて、特定のシーンの動作とシーン描写だけを書けばいい。これは手抜きではなくエンジニアリングです。

アプローチ 3：参考動画で「教える」、テキストで「言う」のではなく

テキストでカメラ運動を描写するのは極めて非効率です。「ゆっくりプッシュイン」という 4 語の理解が、あなたとモデルで大きく異なるかもしれません。しかし、ゆっくりプッシュインのショットを含む参考動画を直接渡せば、モデルは一発で理解します。

動的情報（カメラ運動、動作リズム、トランジション）はすべて参考動画を優先。 適切な参考素材がない場合のみテキストに頼る。

アプローチ 4：モデルの能力の限界を理解する

すべての効果がプロンプトで実現できるわけではありません。以下の場合はプロンプトで粘らないでください：

正確な時間制御（「3 秒目でカット」）——タイムスタンプのサポートは不安定
複雑な物理的相互作用（水を注ぐ、字を書く、靴紐を結ぶ）——現在のモデルは一般的に苦手
多人数の一致性（5 キャラクター全員が維持される）——2-3 人を超えるとドリフトしやすい
正確なテキストレンダリング（長い字幕、複雑なレイアウト）——エラーが出やすい

これらのニーズには、正しい方向は分割生成 + 後編集であり、一つのプロンプトに詰め込むことではありません。

6. まとめ：AI 動画プロンプトの思考パス

開始
  │
  ├─ 1. 何の効果が欲しいか？（頭の中で完全な動画をプレビュー）
  │
  ├─ 2. 何を素材に任せるか？何をテキストに任せるか？
  │     ├─ キャラクター外見 → 参考画像
  │     ├─ シーンスタイル → 参考画像
  │     ├─ カメラリズム → 参考動画
  │     ├─ 音声/雰囲気 → 参考音声
  │     └─ ナラティブロジック → テキストプロンプト
  │
  ├─ 3. 絵コンテ（誰 + どこ + 何をする + カメラがどう動く）
  │     ├─ 1 ショットにつき一つのこと
  │     └─ ゆっくりした小動作を優先
  │
  ├─ 4. 制約を追加（顔安定、字幕なし等）
  │
  ├─ 5. 生成 → 診断 → 修正 → 再生成（2-3 ラウンド）
  │
  └─ 完了

おわりに

AI 動画プロンプトの本質は「描写」ではなく、演出です。

あなたはテキスト、画像、動画、音声からなるチームを指揮して、一本の動画を共同制作しています。プロンプトは観客向けのコピーではなく、このチームへの作業指示書です。より正確で、より構造化され、より適切に分担されるほど、結果は良くなります。

3 つのことを覚えておいてください：

素材に任せられるものはテキストに書かない。
すべての指示は実行可能でなければならず、感じられるものであってはならない。
一回目が完璧でないのは普通。反復こそがプロフェッショナル。

方向性が合えば、あとは練習だけです。

この記事は AI 動画プロンプトのメソッドロジー概論です。具体的な公式、文型、カメラ用語、トラブルシューティングは、シリーズの他の記事をご参照ください。

🍅 Tomato AI で AI 動画生成を無料体験

無料クレジットで Seedance 2.0、Sora 2、Kling 3 などのトップモデルを今すぐお試しください。透かしなし、1080P 出力。

無料ではじめる →

← ブログに戻る

AI動画生成

思い通りの効果が出ない？それは「画面を描写する」やり方で AI 動画プロンプトを書いているから

2026-06-29約8分Tomato AI 編集部

思い通りの効果が出ない？それは「画面を描写する」やり方で AI 動画プロンプトを書いているから

ほとんどの人は AI 動画プロンプトを「小説」のように書いています——形容詞を並べて場面を描写し、モデルが自分の頭の中のイメージを当ててくれるのを期待しています。しかし、AI 動画モデルは画家ではありません。それは「監督」です。与えるべきなのは撮影現場の指示書であり、感想文ではありません。

この記事では公式や文型テンプレートは扱いません。それらは基礎公式や応用ガイドで詳しく解説済みです。

ここで答えるのは一つの問いだけです：プロンプトの方向性を正しくするにはどうすればいいか？

1. まず理解すること：あなたは誰に話しかけているのか

プロンプトを書くとき、多くの人の頭の中はこうなっています：

「夕暮れの麦畑を走る女の子、長い髪が風になびき、映画的な雰囲気。」

美しく聞こえます。でも考えてみてください——あなたは誰にこれを言っているのでしょう？

モデルの世界の捉え方は、あなたとは完全に異なります。 モデルは内部でプロンプトを二つのレイヤーに分割します：

空間レイヤー：フレーム内に何があるか——主体、シーン、光、色
時間レイヤー：時間とともに何が変化するか——動作、カメラ運動、感情の変化

だから最初の原則：「評価」を「指示」に置き換える。

書いたこと（評価型）	書くべきこと（指示型）
映画的な雰囲気	浅い被写界深度、ボケ背景、暖色の黄色トーン
女の子が悲しそう	女の子がうつむき、肩が微かに震え、指で服の裾を握り、目が赤くなる
動きがスムーズ	女の子がゆっくり歩き、足取りは軽く、中景で安定した追従ショット
光が綺麗	夕日が左45度から斜めに差し込み、暖色の琥珀色トーン、被写体の輪郭にリムライト

書くすべての言葉は、モデルが実行できるものでなければならず、感じるものであってはなりません。

2. プロンプト品質の 5 つのレベル

誰もが同じスタートラインにいるわけではありません。自分がどのレベルにいるか確認してください：

レベル 1：一文描写（初級者）

女の子が通りを歩く。

問題：主体が曖昧、動作が単一、シーンなし、カメラ指示なし。モデルは自由に解釈し、結果は完全に制御不能。

レベル 2：形容詞の追加（入門者）

赤いドレスの女の子が賑やかな通りを楽しそうに歩く、綺麗な夕焼け。

レベル 1 よりマシですが、「賑やか」「楽しそう」「綺麗」はすべて評価語です。生成結果は期待とかけ離れている可能性が高い。

レベル 3：構造化された指示（上級者）

ショット 1：夕方の通り、赤いドレスの女の子がゆっくり軽い足取りで歩く、口元に微笑み。中景で安定した追従ショット、暖色の夕日が左から斜めに差し込み、浅い被写界深度。

レベル 4：マルチモーダル指示（プロフェッショナル）

@画像1 の女の子を主人公とし、@画像2 を通りのシーン参考とし、@動画1 のカメラ運動を参考にする。

ショット 1：女の子がゆっくり軽い足取りで歩く、口元に微笑み。中景で安定した追従ショット、暖色の夕日が左から斜めに差し込み、浅い被写界深度。（背景に軽快なギター曲）

レベル 5：エンジニアリング的反復（マスター）

（1 回目生成後）3 秒目で顔がブレる。

修正：別の顔クローズアップを @画像3 として用意し、「顔が安定して変形しない」制約を追加して再生成。

（2 回目生成後）切り替わり部分でジャンプカット。

修正：ショット 1 と 2 の間にトランジション動作「女の子が立ち止まり、カメラの方を向く」を追加して再生成。

多くの人の問題は「書けない」ことではなく、レベル 2 で止まって結果が出ると思っていることです。

3. 方向性が文法より重要：3 つの核心的認識

認識 1：「場面を描写する」のではなく「リソースを割り当てる」

初級者の最大の誤解：プロンプト＝テキストだと思っていること。

実際、AI 動画生成の入力はマルチモーダルリソースパッケージです：

テキストプロンプト（編成ロジック）
参考画像（主体の外見、シーンスタイルを固定）
参考動画（カメラ運動、動作リズム、スタイルを固定）
参考音声（音色、雰囲気を固定）

あなたの仕事はすべてをテキストで描写することではなく、それぞれの情報をどの媒体で伝えるべきか判断することです：

固定したいもの	最適な媒体	理由
キャラクターの外見	参考画像（顔クローズアップ）	顔をテキストで描写する＝災難
シーンスタイル	参考画像/コンセプトアート	「サイバーパンク」は人によって解釈が違う
カメラの動き	参考動画	カメラ運動は動的情報、テキストでは非効率
音色	参考音声	テキストでは音色を描写できない
出来事の順序	テキストプロンプト	テキストだけがナラティブロジックを表現できる
画面の制約	テキストプロンプト	「字幕なし」はルールであり、画面ではない

4-5 個の素材構成（キャラクター画像 1-2 枚 + シーン画像 1 枚 + カメラ参考動画 1 本 + 音声 1 つ）は、500 語の純テキスト描写に毎回勝ります。

認識 2：空間と時間を分けて考える

モデルは内部でプロンプトを「空間レイヤー」と「時間レイヤー」に分割します。だから書くときも 2 ステップで考えるべきです：

ステップ 1：空間レイヤー——このフレームに何があるか？

目を閉じて、フレームを一時停止し、自分に問いかける：

主体は誰？何を着ている？どんなポーズ？
どこ？屋内か屋外？どんなスタイルの環境？
光はどこから？何色？どんな雰囲気？

これを書き留めます——これが静的ベースレイヤーです。

ステップ 2：時間レイヤー——これらがどう変化するか？

フレームが動き出したら：

主体はどんな動作をしている？どのくらいの幅度？どのくらいの速さ？
カメラはどう動く？プッシュ、プル、パン、ティルト？
感情の変化はあるか？何から何へ？
シーンは変化するか？

これを時系列で並べます——これが動的オーケストレーションです。

多くの人の問題は空間と時間が混ざっていることです。分けるとプロンプトが劇的に明確になります。

実践テンプレート：

【空間】
主体：@画像1 の女の子、赤いドレス
シーン：@画像2 の夕方の通り
光：暖色の夕日が左 45 度から斜めに照射、浅い被写界深度
スタイル：映画的ドキュメンタリー風

【時間】
ショット 1：女の子がゆっくり歩く、軽い足取り、口元に微笑み。中景で安定した追従。
ショット 2：女の子が立ち止まり、カメラを向いて微笑む。ゆっくりプッシュインしてクローズアップへ。
ショット 3：女の子が前方に歩き続ける。ゆっくり引き、通りの全景で静止。

【制約】
顔が安定して変形しない、字幕なし、透かしなし。

認識 3：少ないほど良い、でも「正しい場所」で少なく

初級者のもう一つのよくある間違い：何もかも書こうとして、何も上手くいかない。

プロンプトの容量には限界があります。 モデルの注意力にも限界があります。書く一文ごとにこの予算を消費します。

正しいやり方：

1 ショットにつき一つのこと：一つの動作 + 一つのカメラ運動 + 一つの感情ポイント。欲張らない。
ショットを減らし、詳細を増やす：詳細に書き込んだ 3 ショットは、ざっくりした 8 ショットに勝る。
制約は最小限に：必要なものだけ（字幕なし、顔安定）。制約が増えるごとにモデルの自由度が下がり、品質が落ちる可能性がある。
モデルが既に知っていることを書かない：「高画質」はデフォルトなので強調しない。

4. 反復マインドセット：プロンプトは草稿であり、完成原稿ではない

最も重要な方向転換：最初の生成が完璧でないことを受け入れる。

診断チェックリスト

毎回の生成後、このリストで問題を見つけます：

症状	根本原因	修正方向
顔が変わった/似ない	参考顔が小さい、または全身写真と混在	別の顔クローズアップを用意、顔が画面を埋める
動作がカクつく/繋がらない	動作幅度が大きすぎる、またはトランジション記述なし	ゆっくりした小動作に変更、動作の繋ぎを追加
カメラがブレる	1 ショットに複数のカメラ運動を指定	1 ショットにつき 1 種類のカメラ運動のみ
スタイルが違う	明確なスタイル制約がない	「2D アニメ風」や「3D 中国ファンタジー」等を追加
不要な字幕/ロゴが出る	参考素材に文字がある、または制約がない	素材の文字をクリーンアップ、「字幕なし」を追加
切替部でジャンプカット	ショット間にトランジションがない	ショット間にトランジション動作や画面を追加
シーン/キャラが混ざる	参考素材が多すぎて優先順位が混乱	4-5 個に削減、重要な素材を前に配置
品質低下（延長後）	複数回延長で累積劣化	延長回数を抑制、またはホワイトモデル法を使用

反復フロー

v1 を書く → 生成 → 診断 → 的を絞った修正 → 再生成 → 診断 → ...

1 回の反復につき 1 つの問題だけ修正。一度に多くを変えると、どの変更が効いたのか（悪影響だったのか）分かりません。

5. 応用方向：「プロンプトを書く」から「プロンプトを設計する」へ

レベル 3 以上のプロンプトを安定して書けるようになったら、次は「もっと長く詳細に」ではなく「アプローチを変える」ことです。

アプローチ 1：絵コンテ先、プロンプト後

空の入力ボックスを見つめないでください。まず簡単なショット表を描きます（紙でも頭の中でも）：

ショット 1 | 中景追従     | 女の子が通りに入る | 暖色夕日
ショット 2 | クローズアップ | 女の子が立ち止まり微笑む | 浅い被写界深度
ショット 3 | 全景引き     | 女の子が遠ざかる   | 暖色トーン

アプローチ 2：再利用可能なモジュールを作る

多くのシーンで要素が繰り返されることに気づくでしょう——カメラ運動、スタイル制約、品質要件。これらをモジュール化します：

カメラモジュール：中景で安定した追従 / ゆっくりプッシュインしてクローズアップへ / ゆっくり引き全景へ
制約モジュール：顔が安定して変形しない、自然でスムーズな動作、カクつきなし、フリッカーなし、字幕なし、ロゴなし
スタイルモジュール：映画的ドキュメンタリー風、暖色トーン、柔らかい光 / サイバーパンク寒色青紫トーン / 2D アニメ風

アプローチ 3：参考動画で「教える」、テキストで「言う」のではなく

動的情報（カメラ運動、動作リズム、トランジション）はすべて参考動画を優先。 適切な参考素材がない場合のみテキストに頼る。

アプローチ 4：モデルの能力の限界を理解する

すべての効果がプロンプトで実現できるわけではありません。以下の場合はプロンプトで粘らないでください：

正確な時間制御（「3 秒目でカット」）——タイムスタンプのサポートは不安定
複雑な物理的相互作用（水を注ぐ、字を書く、靴紐を結ぶ）——現在のモデルは一般的に苦手
多人数の一致性（5 キャラクター全員が維持される）——2-3 人を超えるとドリフトしやすい
正確なテキストレンダリング（長い字幕、複雑なレイアウト）——エラーが出やすい

これらのニーズには、正しい方向は分割生成 + 後編集であり、一つのプロンプトに詰め込むことではありません。

6. まとめ：AI 動画プロンプトの思考パス

開始
  │
  ├─ 1. 何の効果が欲しいか？（頭の中で完全な動画をプレビュー）
  │
  ├─ 2. 何を素材に任せるか？何をテキストに任せるか？
  │     ├─ キャラクター外見 → 参考画像
  │     ├─ シーンスタイル → 参考画像
  │     ├─ カメラリズム → 参考動画
  │     ├─ 音声/雰囲気 → 参考音声
  │     └─ ナラティブロジック → テキストプロンプト
  │
  ├─ 3. 絵コンテ（誰 + どこ + 何をする + カメラがどう動く）
  │     ├─ 1 ショットにつき一つのこと
  │     └─ ゆっくりした小動作を優先
  │
  ├─ 4. 制約を追加（顔安定、字幕なし等）
  │
  ├─ 5. 生成 → 診断 → 修正 → 再生成（2-3 ラウンド）
  │
  └─ 完了

おわりに

AI 動画プロンプトの本質は「描写」ではなく、演出です。

3 つのことを覚えておいてください：

素材に任せられるものはテキストに書かない。
すべての指示は実行可能でなければならず、感じられるものであってはならない。
一回目が完璧でないのは普通。反復こそがプロフェッショナル。

方向性が合えば、あとは練習だけです。

この記事は AI 動画プロンプトのメソッドロジー概論です。具体的な公式、文型、カメラ用語、トラブルシューティングは、シリーズの他の記事をご参照ください。

🍅 Tomato AI で AI 動画生成を無料体験

無料クレジットで Seedance 2.0、Sora 2、Kling 3 などのトップモデルを今すぐお試しください。透かしなし、1080P 出力。

無料ではじめる →