Tomato AI LogoTomato AI
Home
Video AI
Pricing-50%
Editor Blog⚽ World CupHOT
←
Tomato AI LogoTomato AI

Tomato AI integrates Jimeng 3.0, Veo 3.1, Sora 2, Kling 3 and other top models. Deliver commercial-grade videos from text, images or video in seconds.

Product

  • Text to Video
  • Image to Video
  • 关于我们

Resources

  • Pricing
  • FAQ
  • Blog

© 2026 • Tomato AI All Rights Reservedsupport@tomato.ai
Terms of ServicePrivacy Policy
Tomato AI is an independent product and is not affiliated with ByteDance, Google, OpenAI, etc.
← 返回博客
AI视频生成

写不出想要的效果?因为你还在用'描述画面'的方式写 AI 视频提示词

2026-06-298 分钟阅读Tomato AI 编辑部

写不出想要的效果?因为你还在用"描述画面"的方式写 AI 视频提示词

大部分人写 AI 视频提示词的方式,还停留在"写小说"阶段——用一堆形容词描述一个画面,然后期待模型能猜中你脑子里那个场景。但 AI 视频模型不是画家,它是导演。你给它的应该是片场指令,不是读后感。

这篇文章不讲公式,不讲句式模板。那些在基础公式和进阶指南里已经讲透了。

这里只回答一个问题:怎样才能让自己的提示词方向是对的?


一、先想清楚一件事:你到底在跟谁说话

很多人写提示词时的内心活动是这样的:

"一个女孩在夕阳下的麦田里奔跑,长发随风飘扬,画面很有电影感。"

这句话听起来很美。但你仔细想想——你在跟谁说这句话?

如果你是在跟一个人类摄影师说,他大概能脑补出你要的画面。但 AI 视频模型不是人类。它没有"夕阳"的真实生活经验,不知道"电影感"到底指什么调色,更不知道"随风飘扬"具体是什么幅度。

模型理解世界的方式和你完全不同。 它在内部把你的提示词拆成两层:

  • 空间层:这一帧画面里有什么——主体、场景、光影、颜色
  • 时间层:这些元素怎么随时间变化——动作、运镜、情绪转变

你写的"画面很有电影感"既不是空间信息,也不是时间信息。它是一个评价,不是一条指令。模型拿到它,只能靠训练数据里"电影感"这个词附近出现过的画面去猜——猜对是运气,猜错是常态。

所以第一条方向:把"评价"换成"指令"。

你写的(评价型)应该写的(指令型)
画面很有电影感浅景深,背景虚化,色调偏暖黄
女孩很悲伤女孩低头,肩膀微微颤抖,手指攥紧衣角,眼眶泛红
动作很流畅女孩缓慢行走,脚步轻快,镜头中景平稳跟拍
光影很好看夕阳从左侧 45 度斜射,暖黄色调,人物边缘有轮廓光

你给的每一个词,都应该是模型能"执行"的,而不是能"感受"的。


二、提示词质量的五个层次

不是所有人都在同一个起点上。对照看看你在哪一层:

第一层:一句话描述(新手)

一个女孩在街上走。

问题:主体模糊、动作单一、没有场景、没有运镜。模型只能自由发挥,结果完全不可控。

第二层:加形容词(入门)

一个穿红裙的女孩在繁华的街上开心地走,夕阳很美。

比第一层好一点,但"繁华""开心""很美"全是评价词。模型生成的画面可能和你的预期差了十万八千里。

第三层:结构化指令(进阶)

镜头 1:傍晚街道,穿红色连衣裙的女孩缓慢行走,脚步轻快,嘴角上扬。镜头中景平稳跟拍,暖黄色夕阳从左侧斜射,浅景深背景虚化。

这一层开始像样了。有分镜、有具体动作、有运镜、有光影。大部分认真学过提示词的人停在这里。

第四层:多模态指令(专业)

@图片1 中的女孩作为主角,@图片2 作为街道场景参考,参考 @视频1 的运镜方式。

镜头 1:女孩缓慢行走,脚步轻快,嘴角上扬。镜头中景平稳跟拍,暖黄色夕阳从左侧斜射,浅景深。(背景播放轻快的吉他曲)

这一层的关键不是文字写得多好,而是懂得把不该交给文字的东西交给素材。人物长什么样?交给参考图。运镜风格?交给参考视频。音色?交给音频。文字只负责"编排"。

第五层:工程化迭代(大师)

(第一版生成后)人物面部在第 3 秒出现漂移。

优化:准备单独的大头照作为 @图片3,提示词增加"人物面部稳定不变形"约束,重新生成。

(第二版生成后)动作衔接处有跳变。

优化:在镜头 1 和镜头 2 之间补充过渡动作描述"女孩停下脚步,转身看向镜头",重新生成。

第五层的人不追求一次写对,而是把提示词当成可调试的代码:生成 → 观察问题 → 针对性修复 → 再生成。每一轮都让结果更靠近目标。

大部分人的问题不是"不会写",而是停在了第二层就觉得该出结果了。


三、方向比语法重要:三个核心认知

认知 1:你不是在"描述画面",是在"调度资源"

新手最大的误区:以为提示词就是一段文字。

实际上,AI 视频生成的输入是多模态资源包:

  • 文字提示词(编排逻辑)
  • 参考图片(锁定主体外观、场景风格)
  • 参考视频(锁定运镜、动作节奏、风格)
  • 参考音频(锁定音色、氛围)

你的工作不是用文字描述一切,而是判断每个信息该用什么载体传递:

你想锁定的东西最佳载体为什么
人物长什么样参考图片(大头照)文字描述人脸 = 灾难
场景是什么风格参考图片/概念图"赛博朋克"三个字,100 个人有 100 种想象
镜头怎么动参考视频运镜是动态信息,文字表达效率极低
什么音色参考音频文字无法描述音色
事情的顺序文字提示词只有文字能表达叙事逻辑
画面约束文字提示词"无字幕""不要水印"是规则,不是画面

核心原则:能交给素材的,绝不交给文字。文字只做素材做不了的事——编排顺序、定义关系、施加约束。

一个 4-5 个素材的配置(1-2 张人物图 + 1 张场景图 + 1 段运镜参考视频 + 1 段音频),效果远胜 500 字的纯文字描述。

认知 2:空间和时间,分开想

模型在内部把你的提示词拆成"空间层"和"时间层"。所以你在写提示词时,也应该分两步想:

第一步:空间层——这一帧里有什么?

闭上眼,暂停画面,问自己:

  • 主体是谁?穿什么?什么姿势?
  • 在哪?室内还是室外?什么风格的环境?
  • 光从哪来?什么色调?什么氛围?

把这些写下来,这是你的静态底图。

第二步:时间层——这些东西怎么变?

画面动起来后:

  • 主体在做什么动作?幅度多大?多快?
  • 镜头怎么动?推、拉、摇、移?
  • 情绪有没有转变?从什么到什么?
  • 场景有没有变化?

把这些按时间顺序排列,这是你的动态编排。

很多人写提示词的问题在于:空间和时间混在一起写,模型读起来像一锅粥。分清楚之后,你的提示词会清晰很多。

实操模板:

【空间层】
主体:@图片1 的女孩,穿红色连衣裙
场景:@图片2 的傍晚街道
光影:暖黄色夕阳从左侧 45 度斜射,浅景深
风格:电影纪实风

【时间层】
镜头 1:女孩缓慢行走,脚步轻快,嘴角上扬。镜头中景平稳跟拍。
镜头 2:女孩停下,转头看向镜头,微笑。镜头缓慢推近给到特写。
镜头 3:女孩继续向前走,镜头缓慢拉远,定格在街道全景。

【约束】
人物面部稳定不变形,无字幕,无水印。

写完之后,你甚至可以把【空间层】和【约束】合并到开头作为"全局设定",只保留【时间层】作为分镜——这就是一个结构清晰的专业提示词。

认知 3:少即是多,但要少在对的地方

新手提示词的另一个通病:什么都想写,结果什么都写不好。

一段 15 秒的视频,你写了 8 个镜头、5 个场景切换、3 次情绪转变——模型根本处理不过来。结果就是每个镜头都草草收场,动作不完整,衔接生硬。

提示词的容量是有限的。 模型的注意力也是有限的。你写的每一句话都在消耗这个预算。

正确的做法:

  • 一个镜头只做一件事:一个动作 + 一个运镜 + 一个情绪点。别贪。
  • 少写镜头,多写细节:3 个写满细节的镜头,胜过 8 个一笔带过的镜头。
  • 约束条件要克制:只写必要的约束(无字幕、面部稳定)。每多一条约束,模型的自由度就少一分,生成质量可能下降。
  • 别写模型已经知道的:"高清画质"这种默认就有的,不用强调。

一个检验标准: 读完你的提示词,闭上眼能不能在脑子里放一遍这个视频?如果放不出来——你自己都不知道要什么,模型更不知道。如果能放出来但觉得"信息量好大"——你可能写得太多了,砍掉一半次要内容。


四、迭代思维:提示词是草稿,不是终稿

最关键的方向转变:接受第一次生成不会完美。

专业用户和业余用户的最大差距,不是提示词写得多好,而是迭代次数。业余用户写一次提示词,生成完不满意就放弃,或者完全推翻重写。专业用户生成完,会做一件事——诊断。

诊断清单

每次生成后,对照这个清单找问题:

问题现象根本原因修复方向
人物脸变了/不像参考图人脸太小或混入了全身照换单独的大头照,人脸占满画面
动作卡顿/不连贯动作幅度太大或缺少过渡描述改用缓慢小动作,补充动作衔接
镜头抖动一个镜头里指定了多种运镜每个镜头只指定 1 种运镜
风格不对没有明确的风格约束词加"2D 日漫风格"或"3D 国风"等明确风格词
出现了不需要的字幕/Logo参考素材里有文字,或缺少约束清理素材文字,加"保持无字幕""不要生成Logo"
衔接处跳变两个镜头之间缺少过渡在镜头之间补充过渡动作或过渡画面描述
场景/人物"串味"参考素材太多,模型优先级混乱精简到 4-5 个素材,重要素材放前面
整体画质下降(延长后)多次延长导致画质累积劣化控制延长次数,或用白色模型转换法

迭代流程

写第一版提示词 → 生成 → 诊断问题 → 针对性修改 → 再生成 → 再诊断 → ...

每一轮只改一个问题。一次改太多,你不知道是哪个改动起了作用(或起了反作用)。

通常 2-3 轮迭代就能拿到满意的结果。不要指望一次写对——这不是能力问题,是 AI 视频生成的本质特性决定的。模型有随机性,同样的提示词生成两次,结果都可能不同。你的目标是把随机性收敛到可接受范围内,而不是消除它。


五、进阶方向:从"写提示词"到"设计提示词"

当你能稳定地写出第三层以上的提示词后,下一步的方向不是写得更长更细,而是换一种思路。

思路 1:先有分镜脚本,再写提示词

不要对着空白输入框现想。先在纸上(或脑子里)画一个简单的分镜表:

镜头 1 | 中景跟拍 | 女孩走进街道 | 暖黄夕阳
镜头 2 | 近景特写 | 女孩停下微笑 | 浅景深
镜头 3 | 全景拉远 | 女孩走向远方 | 暖色调

有了这个骨架,填提示词就是"翻译"——把每个格子翻译成模型能理解的指令。比从零开始写提示词,效率高 10 倍。

思路 2:把提示词拆成"可复用模块"

你会发现很多场景的元素是重复的——运镜方式、风格约束、画质要求。把这些做成模块:

  • 运镜模块:镜头中景平稳跟拍 / 镜头缓慢推近给到特写 / 镜头缓慢拉远定格全景
  • 约束模块:人物面部稳定不变形,动作自然流畅,无卡顿无闪烁,保持无字幕,不要生成Logo
  • 风格模块:电影纪实风,色调温暖,光影柔和 / 赛博朋克冷蓝紫色调 / 2D 日漫风格

下次写新提示词,像拼积木一样组合模块,只需要针对具体场景写主体动作和场景描述。这不是偷懒——这是工程化。

思路 3:用参考视频"教"模型,而不是用文字"说"

文字描述运镜,效率极低。"缓慢推近"这四个字,模型的理解可能和你差很远。但如果你直接给一段参考视频,里面有一个缓慢推近的镜头,模型一看就懂。

凡是动态信息(运镜、动作节奏、转场方式),优先用参考视频传递。 文字只在没有合适参考素材时才用。

思路 4:理解模型的能力边界

不是所有效果都能靠提示词实现。以下情况别在提示词上死磕:

  • 精确时长控制("第 3 秒切镜头")——模型对时间戳支持不稳定
  • 复杂物理交互(倒水、写字、系鞋带)——当前模型普遍不擅长
  • 多人物一致性(5 个角色每个都不变)——超过 2-3 人就容易漂移
  • 精确文字渲染(大段字幕、复杂排版)——容易出错

遇到这些需求,正确的方向是拆分生成 + 后期剪辑,而不是在一个提示词里硬塞。


六、一张图总结:AI 视频提示词的思考路径

开始
  │
  ├─ 1. 我要什么效果?(脑中预演完整视频)
  │
  ├─ 2. 哪些信息交给素材?哪些交给文字?
  │     ├─ 人物外观 → 参考图
  │     ├─ 场景风格 → 参考图
  │     ├─ 运镜节奏 → 参考视频
  │     ├─ 音色氛围 → 参考音频
  │     └─ 叙事逻辑 → 文字提示词
  │
  ├─ 3. 分镜(谁 + 在哪 + 做什么 + 镜头怎么动)
  │     ├─ 每个镜头只做一件事
  │     └─ 优先缓慢小动作
  │
  ├─ 4. 补充约束(面部稳定、无字幕等)
  │
  ├─ 5. 生成 → 诊断 → 修改 → 再生成(2-3 轮)
  │
  └─ 完成

写在最后

AI 视频提示词的本质,不是"描述",是指挥。

你是在指挥一个由文字、图片、视频、音频组成的团队,共同完成一段视频。你的提示词不是给观众看的文案,而是给这个团队的工作指令——越精确、越结构化、越懂得分工,结果越好。

记住三句话:

  • 能交给素材的,不交给文字。
  • 每个指令都要可执行,不要可感受。
  • 第一次不完美是正常的,迭代才是专业。

方向对了,剩下的只是练习。


本文是 AI 视频提示词方法论的总纲。具体的公式句式、任务类型、运镜术语、常见问题排查,请参阅系列其他文章:

- 基础公式:多模态参考·编辑·延长·组合

- 提示词规范与进阶公式

- 进阶提示词工程:主体·分镜·动作·运镜

- 实战案例:宿舍情感短剧与古风悬崖对手戏

- 专题技巧:文字生成·视频延长·素材配置

🍅 在 Tomato AI 上免费体验 AI 视频生成

注册即送免费积分,一键使用 Seedance 2.0、Sora 2、Kling 3 等顶级模型。无水印,1080P 输出。

立即免费体验 →