写不出想要的效果?因为你还在用'描述画面'的方式写 AI 视频提示词
写不出想要的效果?因为你还在用"描述画面"的方式写 AI 视频提示词
大部分人写 AI 视频提示词的方式,还停留在"写小说"阶段——用一堆形容词描述一个画面,然后期待模型能猜中你脑子里那个场景。但 AI 视频模型不是画家,它是导演。你给它的应该是片场指令,不是读后感。
这篇文章不讲公式,不讲句式模板。那些在基础公式和进阶指南里已经讲透了。
这里只回答一个问题:怎样才能让自己的提示词方向是对的?
一、先想清楚一件事:你到底在跟谁说话
很多人写提示词时的内心活动是这样的:
"一个女孩在夕阳下的麦田里奔跑,长发随风飘扬,画面很有电影感。"
这句话听起来很美。但你仔细想想——你在跟谁说这句话?
如果你是在跟一个人类摄影师说,他大概能脑补出你要的画面。但 AI 视频模型不是人类。它没有"夕阳"的真实生活经验,不知道"电影感"到底指什么调色,更不知道"随风飘扬"具体是什么幅度。
模型理解世界的方式和你完全不同。 它在内部把你的提示词拆成两层:
- 空间层:这一帧画面里有什么——主体、场景、光影、颜色
- 时间层:这些元素怎么随时间变化——动作、运镜、情绪转变
你写的"画面很有电影感"既不是空间信息,也不是时间信息。它是一个评价,不是一条指令。模型拿到它,只能靠训练数据里"电影感"这个词附近出现过的画面去猜——猜对是运气,猜错是常态。
所以第一条方向:把"评价"换成"指令"。
| 你写的(评价型) | 应该写的(指令型) |
| 画面很有电影感 | 浅景深,背景虚化,色调偏暖黄 |
| 女孩很悲伤 | 女孩低头,肩膀微微颤抖,手指攥紧衣角,眼眶泛红 |
| 动作很流畅 | 女孩缓慢行走,脚步轻快,镜头中景平稳跟拍 |
| 光影很好看 | 夕阳从左侧 45 度斜射,暖黄色调,人物边缘有轮廓光 |
你给的每一个词,都应该是模型能"执行"的,而不是能"感受"的。
二、提示词质量的五个层次
不是所有人都在同一个起点上。对照看看你在哪一层:
第一层:一句话描述(新手)
一个女孩在街上走。
问题:主体模糊、动作单一、没有场景、没有运镜。模型只能自由发挥,结果完全不可控。
第二层:加形容词(入门)
一个穿红裙的女孩在繁华的街上开心地走,夕阳很美。
比第一层好一点,但"繁华""开心""很美"全是评价词。模型生成的画面可能和你的预期差了十万八千里。
第三层:结构化指令(进阶)
镜头 1:傍晚街道,穿红色连衣裙的女孩缓慢行走,脚步轻快,嘴角上扬。镜头中景平稳跟拍,暖黄色夕阳从左侧斜射,浅景深背景虚化。
这一层开始像样了。有分镜、有具体动作、有运镜、有光影。大部分认真学过提示词的人停在这里。
第四层:多模态指令(专业)
@图片1 中的女孩作为主角,@图片2 作为街道场景参考,参考 @视频1 的运镜方式。
镜头 1:女孩缓慢行走,脚步轻快,嘴角上扬。镜头中景平稳跟拍,暖黄色夕阳从左侧斜射,浅景深。(背景播放轻快的吉他曲)
这一层的关键不是文字写得多好,而是懂得把不该交给文字的东西交给素材。人物长什么样?交给参考图。运镜风格?交给参考视频。音色?交给音频。文字只负责"编排"。
第五层:工程化迭代(大师)
(第一版生成后)人物面部在第 3 秒出现漂移。
优化:准备单独的大头照作为 @图片3,提示词增加"人物面部稳定不变形"约束,重新生成。
(第二版生成后)动作衔接处有跳变。
优化:在镜头 1 和镜头 2 之间补充过渡动作描述"女孩停下脚步,转身看向镜头",重新生成。
第五层的人不追求一次写对,而是把提示词当成可调试的代码:生成 → 观察问题 → 针对性修复 → 再生成。每一轮都让结果更靠近目标。
大部分人的问题不是"不会写",而是停在了第二层就觉得该出结果了。
三、方向比语法重要:三个核心认知
认知 1:你不是在"描述画面",是在"调度资源"
新手最大的误区:以为提示词就是一段文字。
实际上,AI 视频生成的输入是多模态资源包:
- 文字提示词(编排逻辑)
- 参考图片(锁定主体外观、场景风格)
- 参考视频(锁定运镜、动作节奏、风格)
- 参考音频(锁定音色、氛围)
你的工作不是用文字描述一切,而是判断每个信息该用什么载体传递:
| 你想锁定的东西 | 最佳载体 | 为什么 |
| 人物长什么样 | 参考图片(大头照) | 文字描述人脸 = 灾难 |
| 场景是什么风格 | 参考图片/概念图 | "赛博朋克"三个字,100 个人有 100 种想象 |
| 镜头怎么动 | 参考视频 | 运镜是动态信息,文字表达效率极低 |
| 什么音色 | 参考音频 | 文字无法描述音色 |
| 事情的顺序 | 文字提示词 | 只有文字能表达叙事逻辑 |
| 画面约束 | 文字提示词 | "无字幕""不要水印"是规则,不是画面 |
核心原则:能交给素材的,绝不交给文字。文字只做素材做不了的事——编排顺序、定义关系、施加约束。
一个 4-5 个素材的配置(1-2 张人物图 + 1 张场景图 + 1 段运镜参考视频 + 1 段音频),效果远胜 500 字的纯文字描述。
认知 2:空间和时间,分开想
模型在内部把你的提示词拆成"空间层"和"时间层"。所以你在写提示词时,也应该分两步想:
第一步:空间层——这一帧里有什么?
闭上眼,暂停画面,问自己:
- 主体是谁?穿什么?什么姿势?
- 在哪?室内还是室外?什么风格的环境?
- 光从哪来?什么色调?什么氛围?
把这些写下来,这是你的静态底图。
第二步:时间层——这些东西怎么变?
画面动起来后:
- 主体在做什么动作?幅度多大?多快?
- 镜头怎么动?推、拉、摇、移?
- 情绪有没有转变?从什么到什么?
- 场景有没有变化?
把这些按时间顺序排列,这是你的动态编排。
很多人写提示词的问题在于:空间和时间混在一起写,模型读起来像一锅粥。分清楚之后,你的提示词会清晰很多。
实操模板:
【空间层】
主体:@图片1 的女孩,穿红色连衣裙
场景:@图片2 的傍晚街道
光影:暖黄色夕阳从左侧 45 度斜射,浅景深
风格:电影纪实风
【时间层】
镜头 1:女孩缓慢行走,脚步轻快,嘴角上扬。镜头中景平稳跟拍。
镜头 2:女孩停下,转头看向镜头,微笑。镜头缓慢推近给到特写。
镜头 3:女孩继续向前走,镜头缓慢拉远,定格在街道全景。
【约束】
人物面部稳定不变形,无字幕,无水印。
写完之后,你甚至可以把【空间层】和【约束】合并到开头作为"全局设定",只保留【时间层】作为分镜——这就是一个结构清晰的专业提示词。
认知 3:少即是多,但要少在对的地方
新手提示词的另一个通病:什么都想写,结果什么都写不好。
一段 15 秒的视频,你写了 8 个镜头、5 个场景切换、3 次情绪转变——模型根本处理不过来。结果就是每个镜头都草草收场,动作不完整,衔接生硬。
提示词的容量是有限的。 模型的注意力也是有限的。你写的每一句话都在消耗这个预算。
正确的做法:
- 一个镜头只做一件事:一个动作 + 一个运镜 + 一个情绪点。别贪。
- 少写镜头,多写细节:3 个写满细节的镜头,胜过 8 个一笔带过的镜头。
- 约束条件要克制:只写必要的约束(无字幕、面部稳定)。每多一条约束,模型的自由度就少一分,生成质量可能下降。
- 别写模型已经知道的:"高清画质"这种默认就有的,不用强调。
一个检验标准: 读完你的提示词,闭上眼能不能在脑子里放一遍这个视频?如果放不出来——你自己都不知道要什么,模型更不知道。如果能放出来但觉得"信息量好大"——你可能写得太多了,砍掉一半次要内容。
四、迭代思维:提示词是草稿,不是终稿
最关键的方向转变:接受第一次生成不会完美。
专业用户和业余用户的最大差距,不是提示词写得多好,而是迭代次数。业余用户写一次提示词,生成完不满意就放弃,或者完全推翻重写。专业用户生成完,会做一件事——诊断。
诊断清单
每次生成后,对照这个清单找问题:
| 问题现象 | 根本原因 | 修复方向 |
| 人物脸变了/不像 | 参考图人脸太小或混入了全身照 | 换单独的大头照,人脸占满画面 |
| 动作卡顿/不连贯 | 动作幅度太大或缺少过渡描述 | 改用缓慢小动作,补充动作衔接 |
| 镜头抖动 | 一个镜头里指定了多种运镜 | 每个镜头只指定 1 种运镜 |
| 风格不对 | 没有明确的风格约束词 | 加"2D 日漫风格"或"3D 国风"等明确风格词 |
| 出现了不需要的字幕/Logo | 参考素材里有文字,或缺少约束 | 清理素材文字,加"保持无字幕""不要生成Logo" |
| 衔接处跳变 | 两个镜头之间缺少过渡 | 在镜头之间补充过渡动作或过渡画面描述 |
| 场景/人物"串味" | 参考素材太多,模型优先级混乱 | 精简到 4-5 个素材,重要素材放前面 |
| 整体画质下降(延长后) | 多次延长导致画质累积劣化 | 控制延长次数,或用白色模型转换法 |
迭代流程
写第一版提示词 → 生成 → 诊断问题 → 针对性修改 → 再生成 → 再诊断 → ...
每一轮只改一个问题。一次改太多,你不知道是哪个改动起了作用(或起了反作用)。
通常 2-3 轮迭代就能拿到满意的结果。不要指望一次写对——这不是能力问题,是 AI 视频生成的本质特性决定的。模型有随机性,同样的提示词生成两次,结果都可能不同。你的目标是把随机性收敛到可接受范围内,而不是消除它。
五、进阶方向:从"写提示词"到"设计提示词"
当你能稳定地写出第三层以上的提示词后,下一步的方向不是写得更长更细,而是换一种思路。
思路 1:先有分镜脚本,再写提示词
不要对着空白输入框现想。先在纸上(或脑子里)画一个简单的分镜表:
镜头 1 | 中景跟拍 | 女孩走进街道 | 暖黄夕阳
镜头 2 | 近景特写 | 女孩停下微笑 | 浅景深
镜头 3 | 全景拉远 | 女孩走向远方 | 暖色调
有了这个骨架,填提示词就是"翻译"——把每个格子翻译成模型能理解的指令。比从零开始写提示词,效率高 10 倍。
思路 2:把提示词拆成"可复用模块"
你会发现很多场景的元素是重复的——运镜方式、风格约束、画质要求。把这些做成模块:
- 运镜模块:
镜头中景平稳跟拍/镜头缓慢推近给到特写/镜头缓慢拉远定格全景 - 约束模块:
人物面部稳定不变形,动作自然流畅,无卡顿无闪烁,保持无字幕,不要生成Logo - 风格模块:
电影纪实风,色调温暖,光影柔和/赛博朋克冷蓝紫色调/2D 日漫风格
下次写新提示词,像拼积木一样组合模块,只需要针对具体场景写主体动作和场景描述。这不是偷懒——这是工程化。
思路 3:用参考视频"教"模型,而不是用文字"说"
文字描述运镜,效率极低。"缓慢推近"这四个字,模型的理解可能和你差很远。但如果你直接给一段参考视频,里面有一个缓慢推近的镜头,模型一看就懂。
凡是动态信息(运镜、动作节奏、转场方式),优先用参考视频传递。 文字只在没有合适参考素材时才用。
思路 4:理解模型的能力边界
不是所有效果都能靠提示词实现。以下情况别在提示词上死磕:
- 精确时长控制("第 3 秒切镜头")——模型对时间戳支持不稳定
- 复杂物理交互(倒水、写字、系鞋带)——当前模型普遍不擅长
- 多人物一致性(5 个角色每个都不变)——超过 2-3 人就容易漂移
- 精确文字渲染(大段字幕、复杂排版)——容易出错
遇到这些需求,正确的方向是拆分生成 + 后期剪辑,而不是在一个提示词里硬塞。
六、一张图总结:AI 视频提示词的思考路径
开始
│
├─ 1. 我要什么效果?(脑中预演完整视频)
│
├─ 2. 哪些信息交给素材?哪些交给文字?
│ ├─ 人物外观 → 参考图
│ ├─ 场景风格 → 参考图
│ ├─ 运镜节奏 → 参考视频
│ ├─ 音色氛围 → 参考音频
│ └─ 叙事逻辑 → 文字提示词
│
├─ 3. 分镜(谁 + 在哪 + 做什么 + 镜头怎么动)
│ ├─ 每个镜头只做一件事
│ └─ 优先缓慢小动作
│
├─ 4. 补充约束(面部稳定、无字幕等)
│
├─ 5. 生成 → 诊断 → 修改 → 再生成(2-3 轮)
│
└─ 完成
写在最后
AI 视频提示词的本质,不是"描述",是指挥。
你是在指挥一个由文字、图片、视频、音频组成的团队,共同完成一段视频。你的提示词不是给观众看的文案,而是给这个团队的工作指令——越精确、越结构化、越懂得分工,结果越好。
记住三句话:
- 能交给素材的,不交给文字。
- 每个指令都要可执行,不要可感受。
- 第一次不完美是正常的,迭代才是专业。
方向对了,剩下的只是练习。
本文是 AI 视频提示词方法论的总纲。具体的公式句式、任务类型、运镜术语、常见问题排查,请参阅系列其他文章: