Tomato AI LogoTomato AI
Home
Video AI
Pricing-50%
Editor Blog⚽ World CupHOT
←
Tomato AI LogoTomato AI

Tomato AI supports standard, high-quality, fast, and reference-based video generation. Deliver commercial-grade videos from text, images or video in seconds.

Product

  • Text to Video
  • Image to Video
  • 关于我们

Resources

  • Pricing
  • FAQ
  • Blog

© 2026 • Tomato AI All Rights Reservedsupport@tomato.ai
Terms of ServicePrivacy Policy
Tomato AI is an independent product and is not affiliated with ByteDance, Google, OpenAI, etc.
← 返回博客
AI视频

AI视频Prompt实战:图生视频技巧与模型优势场景全解析

2026-07-048 分钟阅读Tomato AI 编辑部

AI视频Prompt实战:图生视频技巧与模型优势场景全解析

前两篇我们讲了文生视频的基础公式和进阶技巧。但很多时候,你手里已经有一张不错的图片——可能是一张Midjourney生成的插画,也可能是一张实拍照片——你想让它动起来。

这就是图生视频的场景。本文会讲图生视频的Prompt写法,以及海螺AI最擅长的四大优势场景,帮你把Prompt用在刀刃上。


一、图生视频使用教程

图生视频与文生视频的最大区别在于:图片作为视频的首帧出现,已经限定了主体物形象和基本美学风格。因此,图生视频的Prompt可以适当减少信息量——你不需要再描述"长什么样",只需要描述"接下来发生什么"。

1. 图生视频基础公式

基础公式 = 首帧中的主要表现物 + 运动/变化

由于模型能精确识别图像中的人物、物品等画面信息,你只需要描述"接下来发生什么"。

示例:

  • "画面中的小狗狗,眼中发出蓝光,小狗狗面前凌乱的衣服也发出蓝光慢慢飘起,然后自动在空中折叠整齐,落在小狗狗面前,之后小狗狗眼中的蓝光消失了。"
  • "画面中的蓝色毛绒生物不断搅动着面前的汤锅,汤锅冒着热气,之后蓝色怪物对着面前的锅吹起,面前的汤碗结成冰块。"

注意这两个Prompt的写法:都是先点明"画面中的XX"(告诉模型参考图里的主体),然后描述一系列动作变化。用"之后""然后"等词串联时间线,让动作有先后顺序。

2. 图生视频精确公式

在基础公式上补充镜头和氛围信息,可以生成动态更强或风格化更明显的视频:

精确公式 = 首帧中的主要表现物 + 运动/变化 + 镜头运动 + 美感氛围变化

  • 镜头运动:将画面中的信息作为参考物来写作,可以获得更精确的结果。
  • 美感氛围变化:尽管首帧已确定开头氛围,模型仍能对美感进行调整。

示例:

  • "画面中的猫快速向镜头跑来,眼睛里冒出白色的电光,然后整个身体被电光包围,越跑越快,两边的景物快速向后飞去,两侧场景产生动态模糊形成散发白色光芒的时空隧道。"
  • "拉镜头拍摄,男人朝镜头奔跑。身后的人影快速追赶上来,并变得巨大。人影凑近后,可见那是一个有着山羊面孔的人形生物,面部被偏黄色的光照亮,画面色调变得诡异,充满恐怖的氛围。"

注意第二个例子中"画面色调变得诡异"——这是对首帧氛围的主动改写,说明图生视频同样支持氛围转换。你可以让一张温馨的图片变成恐怖视频,只要在Prompt里写明氛围变化的方向。

图生视频 vs 文生视频 Prompt对比

维度文生视频图生视频
主体描述需要详细写明图片已锁定,简写即可
场景描述需要详细写明图片已锁定,简写即可
运动变化必写必写
镜头运动选写选写,可参考图中元素
氛围控制选写选写,可主动改写首帧氛围

一句话总结:图生视频的Prompt更轻,因为你不需要重复图片里已有的信息,把精力集中在"动什么"和"怎么动"上。


二、模型优势表现

了解模型擅长什么,才能把Prompt用在刀刃上。海螺AI在以下四个方向表现突出:

1. 生动情绪表现

第一梯队的表情表现能力,能根据情绪类Prompt输出多样且生动的表情,精准控制单一表情的表现程度,并实现多种表情的流畅转换。

示例Prompt:

  • "在一个咖啡馆里,女孩正在听对面的男孩说话,表情先是开心,突然惊讶,然后又变得难过"——一段Prompt中包含三种情绪的流畅过渡。
  • "一个女人哭泣着向镜头方向行走,身后是被摧毁的城市废墟"——情绪与环境的结合。
  • "金发小男孩疑惑地看着考卷,皱起眉头,之后悲伤地闭眼哭泣,周围同学纷纷转头看向他"——个体情绪引发群体反应。

写作要点:用"先是……突然……然后……"等时序词串联情绪变化,让转换有节奏感。这是情绪Prompt的核心——不是只写一种表情,而是写一段情绪的演变过程。

2. 真实人体动态表现

能精准还原轮滑、举重、跳跃等复杂人体动态,也支持机械体等非真实角色的运动。

示例Prompt:

  • "快速轮滑,后拉跟随"
  • "举重,举过头顶"
  • "机械人体在城市空中的悬浮平台间跳跃,镜头跟随他向后拉远,机械人体踩在一个悬浮平台上,随即又向下个平台跳去,不断向画面靠近。"

写作要点:人体动态Prompt要写清楚动作的力学逻辑——起跳、腾空、落地,每个阶段都要有。短Prompt(如"快速轮滑")适合简单动作,长Prompt适合连续复合动作。

3. 电影级爆破特效

能便捷制作影视级别的爆炸特效,包括车辆穿越爆炸、机械巨龙从废墟中走出、仓库内炸药引爆等场景。

示例Prompt:

  • "在一座被火光照亮的废弃工厂区,一辆白色轿车在巨大的爆炸中穿梭,燃烧的建筑物和飞溅的碎片在空中划出灿烂的火光轨迹。低角度镜头,跟随轿车穿越爆炸场景,捕捉其惊险的速度和炫目的火光。"
  • "破败的仓库内,尘土飞扬,空气中弥漫着浓烟和火药味。突然,炸药引爆,猛烈的火光和浓烟瞬间吞没了整个画面,火焰在墙壁上跳动。破碎的木板和金属零件飞溅四处,镜头在爆炸的震动中剧烈晃动,四周的光线随着火光的闪烁变幻莫测。"

写作要点:爆破场景要写多层次——火光、碎片、镜头震动、光线变化,缺一不可。尤其别忘了"镜头震动",这个细节能让爆破的真实感大幅提升。

4. 概念组合

极强的泛化能力,能将多种不同物质/特征概念进行任意组合,自由创造所需影像。

示例Prompt:

  • "一只斑马斑纹的猫科动物在广袤的沙漠上行走"——斑马纹 × 猫科 × 沙漠
  • "一匹豹子斑纹的马在雪地中缓缓行走"——豹纹 × 马 × 雪地
  • "可爱的小兔子长着蜻蜓翅膀,在蓝天中飞翔"——兔子 × 蜻蜓翅膀 × 天空
  • "特写镜头拍摄一只由白色水晶构成的蜘蛛在一个小孩的手掌上爬动,蜘蛛背部生长着绚烂的水晶柱,反射着五彩斑斓的光线,周围是黑暗的洞穴"——水晶 × 蜘蛛 × 洞穴

写作要点:概念组合的关键是"材质替换"和"特征嫁接",用"A的B"结构(如斑马纹的猫)就能触发组合能力。先想两个不相关的概念,再用"长着""由……构成""斑纹的"等连接词组合,就能创造出不存在的生物。


三、实际运用案例

这套Prompt方法论已在多个真实项目中落地验证:

  • WAIC人工智能大会:会议宣传片制作
  • 海螺AI《万圣节宣传片》:节日主题商业短片
  • AI短剧《Kill that old man》:完整叙事短剧

这些案例证明,掌握Prompt技巧后,AI视频已能胜任商业级和叙事级内容创作,不再局限于简单的特效演示。


四、总结:Prompt写作速查表

场景公式核心要点
文生视频(自由创作)表现物 + 场景 + 运动变化信息完整即可,留给模型想象空间
文生视频(精确控制)表现物 + 场景 + 运动变化 + 镜头 + 氛围镜头加时序,氛围定色调
图生视频(基础)首帧表现物 + 运动变化图片已锁定主体,只写动态
图生视频(精确)首帧表现物 + 运动变化 + 镜头 + 氛围变化可主动改写首帧氛围

四条黄金法则:

  • 精确优于冗长——每个词都要有画面指向
  • 时序是镜头的灵魂——用"先……之后……最后……"串联
  • 色调与饱和度是情绪的开关——暖/冷/灰暗决定观感
  • 镜头复杂度控制在5-6秒内——贪多必失

AI视频生成的门槛不在模型,而在Prompt。当你能用文字像导演一样思考——主体在哪、镜头怎么动、氛围是什么调——你就已经掌握了这门新语言的精髓。

🍅 在 Tomato AI 上免费体验 AI 视频生成

注册即送免费积分,一键使用 Seedance 2.0、Sora 2、Kling 3 等顶级模型。无水印,1080P 输出。

立即免费体验 →