AI视频生成

写不出想要的效果？因为你还在用'描述画面'的方式写 AI 视频提示词

2026-06-298 分钟阅读Tomato AI 编辑部

写不出想要的效果？因为你还在用"描述画面"的方式写 AI 视频提示词

大部分人写 AI 视频提示词的方式，还停留在"写小说"阶段——用一堆形容词描述一个画面，然后期待模型能猜中你脑子里那个场景。但 AI 视频模型不是画家，它是导演。你给它的应该是片场指令，不是读后感。

这篇文章不讲公式，不讲句式模板。那些在基础公式和进阶指南里已经讲透了。

这里只回答一个问题：怎样才能让自己的提示词方向是对的？

一、先想清楚一件事：你到底在跟谁说话

很多人写提示词时的内心活动是这样的：

"一个女孩在夕阳下的麦田里奔跑，长发随风飘扬，画面很有电影感。"

这句话听起来很美。但你仔细想想——你在跟谁说这句话？

如果你是在跟一个人类摄影师说，他大概能脑补出你要的画面。但 AI 视频模型不是人类。它没有"夕阳"的真实生活经验，不知道"电影感"到底指什么调色，更不知道"随风飘扬"具体是什么幅度。

模型理解世界的方式和你完全不同。 它在内部把你的提示词拆成两层：

空间层：这一帧画面里有什么——主体、场景、光影、颜色
时间层：这些元素怎么随时间变化——动作、运镜、情绪转变

你写的"画面很有电影感"既不是空间信息，也不是时间信息。它是一个评价，不是一条指令。模型拿到它，只能靠训练数据里"电影感"这个词附近出现过的画面去猜——猜对是运气，猜错是常态。

所以第一条方向：把"评价"换成"指令"。

你写的（评价型）	应该写的（指令型）
画面很有电影感	浅景深，背景虚化，色调偏暖黄
女孩很悲伤	女孩低头，肩膀微微颤抖，手指攥紧衣角，眼眶泛红
动作很流畅	女孩缓慢行走，脚步轻快，镜头中景平稳跟拍
光影很好看	夕阳从左侧 45 度斜射，暖黄色调，人物边缘有轮廓光

你给的每一个词，都应该是模型能"执行"的，而不是能"感受"的。

二、提示词质量的五个层次

不是所有人都在同一个起点上。对照看看你在哪一层：

第一层：一句话描述（新手）

一个女孩在街上走。

问题：主体模糊、动作单一、没有场景、没有运镜。模型只能自由发挥，结果完全不可控。

第二层：加形容词（入门）

一个穿红裙的女孩在繁华的街上开心地走，夕阳很美。

比第一层好一点，但"繁华""开心""很美"全是评价词。模型生成的画面可能和你的预期差了十万八千里。

第三层：结构化指令（进阶）

镜头 1：傍晚街道，穿红色连衣裙的女孩缓慢行走，脚步轻快，嘴角上扬。镜头中景平稳跟拍，暖黄色夕阳从左侧斜射，浅景深背景虚化。

这一层开始像样了。有分镜、有具体动作、有运镜、有光影。大部分认真学过提示词的人停在这里。

第四层：多模态指令（专业）

@图片1 中的女孩作为主角，@图片2 作为街道场景参考，参考 @视频1 的运镜方式。

镜头 1：女孩缓慢行走，脚步轻快，嘴角上扬。镜头中景平稳跟拍，暖黄色夕阳从左侧斜射，浅景深。（背景播放轻快的吉他曲）

这一层的关键不是文字写得多好，而是懂得把不该交给文字的东西交给素材。人物长什么样？交给参考图。运镜风格？交给参考视频。音色？交给音频。文字只负责"编排"。

第五层：工程化迭代（大师）

（第一版生成后）人物面部在第 3 秒出现漂移。

优化：准备单独的大头照作为 @图片3，提示词增加"人物面部稳定不变形"约束，重新生成。

（第二版生成后）动作衔接处有跳变。

优化：在镜头 1 和镜头 2 之间补充过渡动作描述"女孩停下脚步，转身看向镜头"，重新生成。

第五层的人不追求一次写对，而是把提示词当成可调试的代码：生成 → 观察问题 → 针对性修复 → 再生成。每一轮都让结果更靠近目标。

大部分人的问题不是"不会写"，而是停在了第二层就觉得该出结果了。

三、方向比语法重要：三个核心认知

认知 1：你不是在"描述画面"，是在"调度资源"

新手最大的误区：以为提示词就是一段文字。

实际上，AI 视频生成的输入是多模态资源包：

文字提示词（编排逻辑）
参考图片（锁定主体外观、场景风格）
参考视频（锁定运镜、动作节奏、风格）
参考音频（锁定音色、氛围）

你的工作不是用文字描述一切，而是判断每个信息该用什么载体传递：

你想锁定的东西	最佳载体	为什么
人物长什么样	参考图片（大头照）	文字描述人脸 = 灾难
场景是什么风格	参考图片/概念图	"赛博朋克"三个字，100 个人有 100 种想象
镜头怎么动	参考视频	运镜是动态信息，文字表达效率极低
什么音色	参考音频	文字无法描述音色
事情的顺序	文字提示词	只有文字能表达叙事逻辑
画面约束	文字提示词	"无字幕""不要水印"是规则，不是画面

核心原则：能交给素材的，绝不交给文字。文字只做素材做不了的事——编排顺序、定义关系、施加约束。

一个 4-5 个素材的配置（1-2 张人物图 + 1 张场景图 + 1 段运镜参考视频 + 1 段音频），效果远胜 500 字的纯文字描述。

认知 2：空间和时间，分开想

模型在内部把你的提示词拆成"空间层"和"时间层"。所以你在写提示词时，也应该分两步想：

第一步：空间层——这一帧里有什么？

闭上眼，暂停画面，问自己：

主体是谁？穿什么？什么姿势？
在哪？室内还是室外？什么风格的环境？
光从哪来？什么色调？什么氛围？

把这些写下来，这是你的静态底图。

第二步：时间层——这些东西怎么变？

画面动起来后：

主体在做什么动作？幅度多大？多快？
镜头怎么动？推、拉、摇、移？
情绪有没有转变？从什么到什么？
场景有没有变化？

把这些按时间顺序排列，这是你的动态编排。

很多人写提示词的问题在于：空间和时间混在一起写，模型读起来像一锅粥。分清楚之后，你的提示词会清晰很多。

实操模板：

【空间层】
主体：@图片1 的女孩，穿红色连衣裙
场景：@图片2 的傍晚街道
光影：暖黄色夕阳从左侧 45 度斜射，浅景深
风格：电影纪实风

【时间层】
镜头 1：女孩缓慢行走，脚步轻快，嘴角上扬。镜头中景平稳跟拍。
镜头 2：女孩停下，转头看向镜头，微笑。镜头缓慢推近给到特写。
镜头 3：女孩继续向前走，镜头缓慢拉远，定格在街道全景。

【约束】
人物面部稳定不变形，无字幕，无水印。

写完之后，你甚至可以把【空间层】和【约束】合并到开头作为"全局设定"，只保留【时间层】作为分镜——这就是一个结构清晰的专业提示词。

认知 3：少即是多，但要少在对的地方

新手提示词的另一个通病：什么都想写，结果什么都写不好。

一段 15 秒的视频，你写了 8 个镜头、5 个场景切换、3 次情绪转变——模型根本处理不过来。结果就是每个镜头都草草收场，动作不完整，衔接生硬。

提示词的容量是有限的。 模型的注意力也是有限的。你写的每一句话都在消耗这个预算。

正确的做法：

一个镜头只做一件事：一个动作 + 一个运镜 + 一个情绪点。别贪。
少写镜头，多写细节：3 个写满细节的镜头，胜过 8 个一笔带过的镜头。
约束条件要克制：只写必要的约束（无字幕、面部稳定）。每多一条约束，模型的自由度就少一分，生成质量可能下降。
别写模型已经知道的："高清画质"这种默认就有的，不用强调。

一个检验标准： 读完你的提示词，闭上眼能不能在脑子里放一遍这个视频？如果放不出来——你自己都不知道要什么，模型更不知道。如果能放出来但觉得"信息量好大"——你可能写得太多了，砍掉一半次要内容。

四、迭代思维：提示词是草稿，不是终稿

最关键的方向转变：接受第一次生成不会完美。

专业用户和业余用户的最大差距，不是提示词写得多好，而是迭代次数。业余用户写一次提示词，生成完不满意就放弃，或者完全推翻重写。专业用户生成完，会做一件事——诊断。

诊断清单

每次生成后，对照这个清单找问题：

问题现象	根本原因	修复方向
人物脸变了/不像	参考图人脸太小或混入了全身照	换单独的大头照，人脸占满画面
动作卡顿/不连贯	动作幅度太大或缺少过渡描述	改用缓慢小动作，补充动作衔接
镜头抖动	一个镜头里指定了多种运镜	每个镜头只指定 1 种运镜
风格不对	没有明确的风格约束词	加"2D 日漫风格"或"3D 国风"等明确风格词
出现了不需要的字幕/Logo	参考素材里有文字，或缺少约束	清理素材文字，加"保持无字幕""不要生成Logo"
衔接处跳变	两个镜头之间缺少过渡	在镜头之间补充过渡动作或过渡画面描述
场景/人物"串味"	参考素材太多，模型优先级混乱	精简到 4-5 个素材，重要素材放前面
整体画质下降（延长后）	多次延长导致画质累积劣化	控制延长次数，或用白色模型转换法

迭代流程

写第一版提示词 → 生成 → 诊断问题 → 针对性修改 → 再生成 → 再诊断 → ...

每一轮只改一个问题。一次改太多，你不知道是哪个改动起了作用（或起了反作用）。

通常 2-3 轮迭代就能拿到满意的结果。不要指望一次写对——这不是能力问题，是 AI 视频生成的本质特性决定的。模型有随机性，同样的提示词生成两次，结果都可能不同。你的目标是把随机性收敛到可接受范围内，而不是消除它。

五、进阶方向：从"写提示词"到"设计提示词"

当你能稳定地写出第三层以上的提示词后，下一步的方向不是写得更长更细，而是换一种思路。

思路 1：先有分镜脚本，再写提示词

不要对着空白输入框现想。先在纸上（或脑子里）画一个简单的分镜表：

镜头 1 | 中景跟拍 | 女孩走进街道 | 暖黄夕阳
镜头 2 | 近景特写 | 女孩停下微笑 | 浅景深
镜头 3 | 全景拉远 | 女孩走向远方 | 暖色调

有了这个骨架，填提示词就是"翻译"——把每个格子翻译成模型能理解的指令。比从零开始写提示词，效率高 10 倍。

思路 2：把提示词拆成"可复用模块"

你会发现很多场景的元素是重复的——运镜方式、风格约束、画质要求。把这些做成模块：

运镜模块：镜头中景平稳跟拍 / 镜头缓慢推近给到特写 / 镜头缓慢拉远定格全景
约束模块：人物面部稳定不变形，动作自然流畅，无卡顿无闪烁，保持无字幕，不要生成Logo
风格模块：电影纪实风，色调温暖，光影柔和 / 赛博朋克冷蓝紫色调 / 2D 日漫风格

下次写新提示词，像拼积木一样组合模块，只需要针对具体场景写主体动作和场景描述。这不是偷懒——这是工程化。

思路 3：用参考视频"教"模型，而不是用文字"说"

文字描述运镜，效率极低。"缓慢推近"这四个字，模型的理解可能和你差很远。但如果你直接给一段参考视频，里面有一个缓慢推近的镜头，模型一看就懂。

凡是动态信息（运镜、动作节奏、转场方式），优先用参考视频传递。 文字只在没有合适参考素材时才用。

思路 4：理解模型的能力边界

不是所有效果都能靠提示词实现。以下情况别在提示词上死磕：

精确时长控制（"第 3 秒切镜头"）——模型对时间戳支持不稳定
复杂物理交互（倒水、写字、系鞋带）——当前模型普遍不擅长
多人物一致性（5 个角色每个都不变）——超过 2-3 人就容易漂移
精确文字渲染（大段字幕、复杂排版）——容易出错

遇到这些需求，正确的方向是拆分生成 + 后期剪辑，而不是在一个提示词里硬塞。

六、一张图总结：AI 视频提示词的思考路径

开始
  │
  ├─ 1. 我要什么效果？（脑中预演完整视频）
  │
  ├─ 2. 哪些信息交给素材？哪些交给文字？
  │     ├─ 人物外观 → 参考图
  │     ├─ 场景风格 → 参考图
  │     ├─ 运镜节奏 → 参考视频
  │     ├─ 音色氛围 → 参考音频
  │     └─ 叙事逻辑 → 文字提示词
  │
  ├─ 3. 分镜（谁 + 在哪 + 做什么 + 镜头怎么动）
  │     ├─ 每个镜头只做一件事
  │     └─ 优先缓慢小动作
  │
  ├─ 4. 补充约束（面部稳定、无字幕等）
  │
  ├─ 5. 生成 → 诊断 → 修改 → 再生成（2-3 轮）
  │
  └─ 完成

写在最后

AI 视频提示词的本质，不是"描述"，是指挥。

你是在指挥一个由文字、图片、视频、音频组成的团队，共同完成一段视频。你的提示词不是给观众看的文案，而是给这个团队的工作指令——越精确、越结构化、越懂得分工，结果越好。

记住三句话：

能交给素材的，不交给文字。
每个指令都要可执行，不要可感受。
第一次不完美是正常的，迭代才是专业。

方向对了，剩下的只是练习。

本文是 AI 视频提示词方法论的总纲。具体的公式句式、任务类型、运镜术语、常见问题排查，请参阅系列其他文章：

- 基础公式：多模态参考·编辑·延长·组合

- 提示词规范与进阶公式

- 进阶提示词工程：主体·分镜·动作·运镜

- 实战案例：宿舍情感短剧与古风悬崖对手戏

- 专题技巧：文字生成·视频延长·素材配置

🍅 在 Tomato AI 上免费体验 AI 视频生成

注册即送免费积分，一键使用 Seedance 2.0、Sora 2、Kling 3 等顶级模型。无水印，1080P 输出。

立即免费体验 →

← 返回博客