Tomato AI LogoTomato AI
Home
Video AI
Pricing-50%
Editor Blog⚽ World CupHOT
←
Tomato AI LogoTomato AI

Tomato AI integrates Jimeng 3.0, Veo 3.1, Sora 2, Kling 3 and other top models. Deliver commercial-grade videos from text, images or video in seconds.

Product

  • Text to Video
  • Image to Video
  • 关于我们

Resources

  • Pricing
  • FAQ
  • Blog

© 2026 • Tomato AI All Rights Reservedsupport@tomato.ai
Terms of ServicePrivacy Policy
Tomato AI is an independent product and is not affiliated with ByteDance, Google, OpenAI, etc.
← ブログに戻る
AI動画生成

思い通りの効果が出ない?それは「画面を描写する」やり方で AI 動画プロンプトを書いているから

2026-06-29約8分Tomato AI 編集部

思い通りの効果が出ない?それは「画面を描写する」やり方で AI 動画プロンプトを書いているから

ほとんどの人は AI 動画プロンプトを「小説」のように書いています——形容詞を並べて場面を描写し、モデルが自分の頭の中のイメージを当ててくれるのを期待しています。しかし、AI 動画モデルは画家ではありません。それは「監督」です。与えるべきなのは撮影現場の指示書であり、感想文ではありません。

この記事では公式や文型テンプレートは扱いません。それらは基礎公式や応用ガイドで詳しく解説済みです。

ここで答えるのは一つの問いだけです:プロンプトの方向性を正しくするにはどうすればいいか?


1. まず理解すること:あなたは誰に話しかけているのか

プロンプトを書くとき、多くの人の頭の中はこうなっています:

「夕暮れの麦畑を走る女の子、長い髪が風になびき、映画的な雰囲気。」

美しく聞こえます。でも考えてみてください——あなたは誰にこれを言っているのでしょう?

人間のカメラマンに言っているなら、彼は想像力で埋めてくれるでしょう。しかし AI 動画モデルは人間ではありません。「夕暮れ」の生活経験がなく、「映画的な雰囲気」がどんなカラーグレーディングを意味するのかわからず、「風になびく」の具体的な振幅を知りません。

モデルの世界の捉え方は、あなたとは完全に異なります。 モデルは内部でプロンプトを二つのレイヤーに分割します:

  • 空間レイヤー:フレーム内に何があるか——主体、シーン、光、色
  • 時間レイヤー:時間とともに何が変化するか——動作、カメラ運動、感情の変化

「映画的な雰囲気」は空間情報でも時間情報でもありません。それは評価であり、指示ではありません。モデルは訓練データでその言葉の近くに出現した画像から推測するしかありません——当たればラッキー、外れれば普通です。

だから最初の原則:「評価」を「指示」に置き換える。

書いたこと(評価型)書くべきこと(指示型)
映画的な雰囲気浅い被写界深度、ボケ背景、暖色の黄色トーン
女の子が悲しそう女の子がうつむき、肩が微かに震え、指で服の裾を握り、目が赤くなる
動きがスムーズ女の子がゆっくり歩き、足取りは軽く、中景で安定した追従ショット
光が綺麗夕日が左45度から斜めに差し込み、暖色の琥珀色トーン、被写体の輪郭にリムライト

書くすべての言葉は、モデルが実行できるものでなければならず、感じるものであってはなりません。


2. プロンプト品質の 5 つのレベル

誰もが同じスタートラインにいるわけではありません。自分がどのレベルにいるか確認してください:

レベル 1:一文描写(初級者)

女の子が通りを歩く。

問題:主体が曖昧、動作が単一、シーンなし、カメラ指示なし。モデルは自由に解釈し、結果は完全に制御不能。

レベル 2:形容詞の追加(入門者)

赤いドレスの女の子が賑やかな通りを楽しそうに歩く、綺麗な夕焼け。

レベル 1 よりマシですが、「賑やか」「楽しそう」「綺麗」はすべて評価語です。生成結果は期待とかけ離れている可能性が高い。

レベル 3:構造化された指示(上級者)

ショット 1:夕方の通り、赤いドレスの女の子がゆっくり軽い足取りで歩く、口元に微笑み。中景で安定した追従ショット、暖色の夕日が左から斜めに差し込み、浅い被写界深度。

ここからまともになります。ショット分割、具体的な動作、カメラ運動、光の記述があります。真剣にプロンプトを学んだ人の多くはここで止まります。

レベル 4:マルチモーダル指示(プロフェッショナル)

@画像1 の女の子を主人公とし、@画像2 を通りのシーン参考とし、@動画1 のカメラ運動を参考にする。

ショット 1:女の子がゆっくり軽い足取りで歩く、口元に微笑み。中景で安定した追従ショット、暖色の夕日が左から斜めに差し込み、浅い被写界深度。(背景に軽快なギター曲)

このレベルの鍵は、テキストがどれだけ上手いかではなく、何を素材に任せるかを知っていることです。キャラクターの外見?参考画像に任せる。カメラスタイル?参考動画に任せる。音色?音声に任せる。テキストは「編成」だけを担当します。

レベル 5:エンジニアリング的反復(マスター)

(1 回目生成後)3 秒目で顔がブレる。

修正:別の顔クローズアップを @画像3 として用意し、「顔が安定して変形しない」制約を追加して再生成。

(2 回目生成後)切り替わり部分でジャンプカット。

修正:ショット 1 と 2 の間にトランジション動作「女の子が立ち止まり、カメラの方を向く」を追加して再生成。

レベル 5 のユーザーは最初から完璧を目指しません。プロンプトをデバッグ可能なコードとして扱います:生成 → 問題を観察 → 的を絞った修正 → 再生成。毎回結果をターゲットに近づけます。

多くの人の問題は「書けない」ことではなく、レベル 2 で止まって結果が出ると思っていることです。


3. 方向性が文法より重要:3 つの核心的認識

認識 1:「場面を描写する」のではなく「リソースを割り当てる」

初級者の最大の誤解:プロンプト=テキストだと思っていること。

実際、AI 動画生成の入力はマルチモーダルリソースパッケージです:

  • テキストプロンプト(編成ロジック)
  • 参考画像(主体の外見、シーンスタイルを固定)
  • 参考動画(カメラ運動、動作リズム、スタイルを固定)
  • 参考音声(音色、雰囲気を固定)

あなたの仕事はすべてをテキストで描写することではなく、それぞれの情報をどの媒体で伝えるべきか判断することです:

固定したいもの最適な媒体理由
キャラクターの外見参考画像(顔クローズアップ)顔をテキストで描写する=災難
シーンスタイル参考画像/コンセプトアート「サイバーパンク」は人によって解釈が違う
カメラの動き参考動画カメラ運動は動的情報、テキストでは非効率
音色参考音声テキストでは音色を描写できない
出来事の順序テキストプロンプトテキストだけがナラティブロジックを表現できる
画面の制約テキストプロンプト「字幕なし」はルールであり、画面ではない

核心原則:素材に任せられるものはテキストに書かない。テキストは素材にできないこと——順序の編成、関係の定義、制約の付与——だけを担当する。

4-5 個の素材構成(キャラクター画像 1-2 枚 + シーン画像 1 枚 + カメラ参考動画 1 本 + 音声 1 つ)は、500 語の純テキスト描写に毎回勝ります。

認識 2:空間と時間を分けて考える

モデルは内部でプロンプトを「空間レイヤー」と「時間レイヤー」に分割します。だから書くときも 2 ステップで考えるべきです:

ステップ 1:空間レイヤー——このフレームに何があるか?

目を閉じて、フレームを一時停止し、自分に問いかける:

  • 主体は誰?何を着ている?どんなポーズ?
  • どこ?屋内か屋外?どんなスタイルの環境?
  • 光はどこから?何色?どんな雰囲気?

これを書き留めます——これが静的ベースレイヤーです。

ステップ 2:時間レイヤー——これらがどう変化するか?

フレームが動き出したら:

  • 主体はどんな動作をしている?どのくらいの幅度?どのくらいの速さ?
  • カメラはどう動く?プッシュ、プル、パン、ティルト?
  • 感情の変化はあるか?何から何へ?
  • シーンは変化するか?

これを時系列で並べます——これが動的オーケストレーションです。

多くの人の問題は空間と時間が混ざっていることです。分けるとプロンプトが劇的に明確になります。

実践テンプレート:

【空間】
主体:@画像1 の女の子、赤いドレス
シーン:@画像2 の夕方の通り
光:暖色の夕日が左 45 度から斜めに照射、浅い被写界深度
スタイル:映画的ドキュメンタリー風

【時間】
ショット 1:女の子がゆっくり歩く、軽い足取り、口元に微笑み。中景で安定した追従。
ショット 2:女の子が立ち止まり、カメラを向いて微笑む。ゆっくりプッシュインしてクローズアップへ。
ショット 3:女の子が前方に歩き続ける。ゆっくり引き、通りの全景で静止。

【制約】
顔が安定して変形しない、字幕なし、透かしなし。

書き終えたら、【空間】と【制約】を冒頭の「グローバル設定」としてマージし、【時間】だけをショット分割として残せば、構造的でプロフェッショナルなプロンプトになります。

認識 3:少ないほど良い、でも「正しい場所」で少なく

初級者のもう一つのよくある間違い:何もかも書こうとして、何も上手くいかない。

15 秒の動画に 8 つのショット、5 回のシーン切り替え、3 回の感情変化を書く——モデルは処理しきれません。各ショットが中途半端になり、動作が不完全、切り替えが不自然になります。

プロンプトの容量には限界があります。 モデルの注意力にも限界があります。書く一文ごとにこの予算を消費します。

正しいやり方:

  • 1 ショットにつき一つのこと:一つの動作 + 一つのカメラ運動 + 一つの感情ポイント。欲張らない。
  • ショットを減らし、詳細を増やす:詳細に書き込んだ 3 ショットは、ざっくりした 8 ショットに勝る。
  • 制約は最小限に:必要なものだけ(字幕なし、顔安定)。制約が増えるごとにモデルの自由度が下がり、品質が落ちる可能性がある。
  • モデルが既に知っていることを書かない:「高画質」はデフォルトなので強調しない。

検証基準: プロンプトを読み終えた後、目を閉じて頭の中で動画を再生できるか?できないなら——あなた自身が何を欲しいか分かっておらず、モデルはもっと分かりません。できるけど「情報量が多すぎ」と感じるなら——書きすぎです。重要でない半分を削ってください。


4. 反復マインドセット:プロンプトは草稿であり、完成原稿ではない

最も重要な方向転換:最初の生成が完璧でないことを受け入れる。

プロフェッショナルとアマチュアの最大の違いは、プロンプトの上手さではなく反復回数です。アマチュアは一度生成して気に入らないと諦めるか、完全に書き直します。プロフェッショナルは生成した後、一つのことをします——診断。

診断チェックリスト

毎回の生成後、このリストで問題を見つけます:

症状根本原因修正方向
顔が変わった/似ない参考顔が小さい、または全身写真と混在別の顔クローズアップを用意、顔が画面を埋める
動作がカクつく/繋がらない動作幅度が大きすぎる、またはトランジション記述なしゆっくりした小動作に変更、動作の繋ぎを追加
カメラがブレる1 ショットに複数のカメラ運動を指定1 ショットにつき 1 種類のカメラ運動のみ
スタイルが違う明確なスタイル制約がない「2D アニメ風」や「3D 中国ファンタジー」等を追加
不要な字幕/ロゴが出る参考素材に文字がある、または制約がない素材の文字をクリーンアップ、「字幕なし」を追加
切替部でジャンプカットショット間にトランジションがないショット間にトランジション動作や画面を追加
シーン/キャラが混ざる参考素材が多すぎて優先順位が混乱4-5 個に削減、重要な素材を前に配置
品質低下(延長後)複数回延長で累積劣化延長回数を抑制、またはホワイトモデル法を使用

反復フロー

v1 を書く → 生成 → 診断 → 的を絞った修正 → 再生成 → 診断 → ...

1 回の反復につき 1 つの問題だけ修正。一度に多くを変えると、どの変更が効いたのか(悪影響だったのか)分かりません。

通常 2-3 回の反復で満足できる結果に届きます。一発で正解しようとしないでください——これは能力の問題ではなく、AI 動画生成の本質的特性です。モデルにはランダム性があり、同じプロンプトで 2 回生成しても結果が変わることがあります。目標はランダム性を許容範囲に収束することであって、排除することではありません。


5. 応用方向:「プロンプトを書く」から「プロンプトを設計する」へ

レベル 3 以上のプロンプトを安定して書けるようになったら、次は「もっと長く詳細に」ではなく「アプローチを変える」ことです。

アプローチ 1:絵コンテ先、プロンプト後

空の入力ボックスを見つめないでください。まず簡単なショット表を描きます(紙でも頭の中でも):

ショット 1 | 中景追従     | 女の子が通りに入る | 暖色夕日
ショット 2 | クローズアップ | 女の子が立ち止まり微笑む | 浅い被写界深度
ショット 3 | 全景引き     | 女の子が遠ざかる   | 暖色トーン

この骨組みがあれば、プロンプトを埋めるのは「翻訳」です——各セルをモデルが理解できる指示に変換するだけ。ゼロから書くより 10 倍効率的です。

アプローチ 2:再利用可能なモジュールを作る

多くのシーンで要素が繰り返されることに気づくでしょう——カメラ運動、スタイル制約、品質要件。これらをモジュール化します:

  • カメラモジュール:中景で安定した追従 / ゆっくりプッシュインしてクローズアップへ / ゆっくり引き全景へ
  • 制約モジュール:顔が安定して変形しない、自然でスムーズな動作、カクつきなし、フリッカーなし、字幕なし、ロゴなし
  • スタイルモジュール:映画的ドキュメンタリー風、暖色トーン、柔らかい光 / サイバーパンク寒色青紫トーン / 2D アニメ風

次回は、ブロックのようにモジュールを組み合わせて、特定のシーンの動作とシーン描写だけを書けばいい。これは手抜きではなくエンジニアリングです。

アプローチ 3:参考動画で「教える」、テキストで「言う」のではなく

テキストでカメラ運動を描写するのは極めて非効率です。「ゆっくりプッシュイン」という 4 語の理解が、あなたとモデルで大きく異なるかもしれません。しかし、ゆっくりプッシュインのショットを含む参考動画を直接渡せば、モデルは一発で理解します。

動的情報(カメラ運動、動作リズム、トランジション)はすべて参考動画を優先。 適切な参考素材がない場合のみテキストに頼る。

アプローチ 4:モデルの能力の限界を理解する

すべての効果がプロンプトで実現できるわけではありません。以下の場合はプロンプトで粘らないでください:

  • 正確な時間制御(「3 秒目でカット」)——タイムスタンプのサポートは不安定
  • 複雑な物理的相互作用(水を注ぐ、字を書く、靴紐を結ぶ)——現在のモデルは一般的に苦手
  • 多人数の一致性(5 キャラクター全員が維持される)——2-3 人を超えるとドリフトしやすい
  • 正確なテキストレンダリング(長い字幕、複雑なレイアウト)——エラーが出やすい

これらのニーズには、正しい方向は分割生成 + 後編集であり、一つのプロンプトに詰め込むことではありません。


6. まとめ:AI 動画プロンプトの思考パス

開始
  │
  ├─ 1. 何の効果が欲しいか?(頭の中で完全な動画をプレビュー)
  │
  ├─ 2. 何を素材に任せるか?何をテキストに任せるか?
  │     ├─ キャラクター外見 → 参考画像
  │     ├─ シーンスタイル → 参考画像
  │     ├─ カメラリズム → 参考動画
  │     ├─ 音声/雰囲気 → 参考音声
  │     └─ ナラティブロジック → テキストプロンプト
  │
  ├─ 3. 絵コンテ(誰 + どこ + 何をする + カメラがどう動く)
  │     ├─ 1 ショットにつき一つのこと
  │     └─ ゆっくりした小動作を優先
  │
  ├─ 4. 制約を追加(顔安定、字幕なし等)
  │
  ├─ 5. 生成 → 診断 → 修正 → 再生成(2-3 ラウンド)
  │
  └─ 完了

おわりに

AI 動画プロンプトの本質は「描写」ではなく、演出です。

あなたはテキスト、画像、動画、音声からなるチームを指揮して、一本の動画を共同制作しています。プロンプトは観客向けのコピーではなく、このチームへの作業指示書です。より正確で、より構造化され、より適切に分担されるほど、結果は良くなります。

3 つのことを覚えておいてください:

  • 素材に任せられるものはテキストに書かない。
  • すべての指示は実行可能でなければならず、感じられるものであってはならない。
  • 一回目が完璧でないのは普通。反復こそがプロフェッショナル。

方向性が合えば、あとは練習だけです。


この記事は AI 動画プロンプトのメソッドロジー概論です。具体的な公式、文型、カメラ用語、トラブルシューティングは、シリーズの他の記事をご参照ください。

🍅 Tomato AI で AI 動画生成を無料体験

無料クレジットで Seedance 2.0、Sora 2、Kling 3 などのトップモデルを今すぐお試しください。透かしなし、1080P 出力。

無料ではじめる →